+ All Categories
Home > Documents > Sumarizare automat focalizat temporal - profs.info.uaic.rocorinfor/Claudiu.pdf · Universitatea...

Sumarizare automat focalizat temporal - profs.info.uaic.rocorinfor/Claudiu.pdf · Universitatea...

Date post: 02-Sep-2019
Category:
Upload: others
View: 6 times
Download: 0 times
Share this document with a friend
55
Transcript

Universitatea "Al.I. Cuza" Ias, i

Facultatea de Informatic 

Sumarizare automat 

focalizat  temporal

Autor:

Claudiu Mih il 

Coordonator:

Corina For scu

iunie 2008

Introducere

În lucrarea de fat,  analiz m o metod  de creare a rezumatelor multi-document în

mod automat, cu accent pe localizarea temporal  a act,iunilor, exploatând propriet t

,ile

de coeziune s,i coerent

,  ale textului.

Obiectivul sumariz rii automate este preluarea datelor de la sursele de informat,ie, ex-

tragerea cont,inutului s

,i prezentarea esent

,ialului într-o form  condensat  s

,i într-o manier 

sensibil  la nevoile utilizatorului sau aplicat,iei. Sistemul este capabil s  observe evolut

,ia

în timp a informat,iilor prezentate în articolele de s

,tiri, s  identi�ce asem n rile s

,i de-

osebirile între informat,iile oferite de surse de s

,tiri diferite. În funct

,ie de num rul de

schimb ri în timp ale punctului de vedere s,i de relat

,ia cu alte surse de informat

,ie, gradul

de încredere asociat articolelor este modi�cat, astfel încât ele pot � incluse sau nu înrezumatul produs.

Primul capitol al acestei lucr ri este destinat considerat,iilor generale asupra suma-

riz rii automate, precum s,i asupra proces rilor de text necesare. Sunt aduse în discut

,ie

atât caracteristicile parametrice, cât s,i abord rile sumariz rii, insistându-se pe pas

,ii

preg titori, componente f r  de care sumarizarea nu este posibil .Corpusul utilizat s

,i metoda prin care s-a realizat sumarizarea automat  ocup  capi-

tolul al doilea al lucr rii. Astfel, sunt descrise colect,ia de texte utilizate s

,i analiza efec-

tuat  asupra lor, modalitatea de reprezentare a informat,iei s

,i algoritmul implementat,

al turi de de�nit,iile operatorilor aplicat

,i. Partea de sfârs

,it a capitolului se refer  la

generarea limbajului natural, ultima faz  a sumariz rii, în care se sintetizeaz  produsul�nal.

În cel de-al treilea capitol este prezentat  o evaluare a rezumatelor produse de acestsistem, efectuat  atât de judec tori umani, cât s

,i de o aplicat

,ie specializat . Rezultatele

obt,inute sunt satisf c toare s

,i dovedesc c  sistemul este unul viabil s

,i �abil.

3

Cuprins

1 Metod  general  7

1.1 Sumarizare. Sumarizare automat  . . . . . . . . . . . . . . . . . . . . . . 71.1.1 Abord ri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.2 Arhitectur  abstract  pentru sumarizare . . . . . . . . . . . . . . . . . . 101.3 Proces ri . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

1.3.1 Segmentare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121.3.2 Analiz  morfologic  . . . . . . . . . . . . . . . . . . . . . . . . . . 141.3.3 Recunoas

,terea entit t

,ilor . . . . . . . . . . . . . . . . . . . . . . . 15

1.3.4 Rezolut,ia referint

,elor anaforice . . . . . . . . . . . . . . . . . . . 17

1.3.5 Coreferint,e între documente . . . . . . . . . . . . . . . . . . . . . 18

1.3.6 Analiz  sintactic  . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.3.7 Expresii temporale . . . . . . . . . . . . . . . . . . . . . . . . . . 191.3.8 Ordonare temporal  . . . . . . . . . . . . . . . . . . . . . . . . . 211.3.9 Similaritate cosinus . . . . . . . . . . . . . . . . . . . . . . . . . . 21

1.4 Exemple de sisteme de sumarizare . . . . . . . . . . . . . . . . . . . . . . 22

2 Sumarizare aplicat  pe corpusurile MUC 25

2.1 Arhitectura sistemului . . . . . . . . . . . . . . . . . . . . . . . . . . . . 252.2 Colect

,ie de documente . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

2.2.1 Tipuri de documente . . . . . . . . . . . . . . . . . . . . . . . . . 252.2.2 Corpusuri utilizate . . . . . . . . . . . . . . . . . . . . . . . . . . 262.2.3 Analiza corpusului . . . . . . . . . . . . . . . . . . . . . . . . . . 27

2.3 Modele de reprezentare . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.3.1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.3.2 Reprezentarea informat

,iei curente . . . . . . . . . . . . . . . . . . 29

2.3.3 Reprezentarea informat,iei ontologice . . . . . . . . . . . . . . . . 31

2.4 Sumarizare multidocument . . . . . . . . . . . . . . . . . . . . . . . . . . 332.4.1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.4.2 Idee de algoritm . . . . . . . . . . . . . . . . . . . . . . . . . . . . 332.4.3 Operator de plani�care generic . . . . . . . . . . . . . . . . . . . 342.4.4 Taxonomia operatorilor de plani�care . . . . . . . . . . . . . . . . 34

5

Claudiu Mih il 

2.4.4.1 Schimbarea perspectivei . . . . . . . . . . . . . . . . . . 342.4.4.2 Contradict

,ia . . . . . . . . . . . . . . . . . . . . . . . . 35

2.4.4.3 Elaborarea . . . . . . . . . . . . . . . . . . . . . . . . . 352.4.4.4 Ra�narea . . . . . . . . . . . . . . . . . . . . . . . . . . 362.4.4.5 Acordul . . . . . . . . . . . . . . . . . . . . . . . . . . . 372.4.4.6 Agregarea . . . . . . . . . . . . . . . . . . . . . . . . . . 37

2.4.5 Algoritm pentru aplicarea operatorilor . . . . . . . . . . . . . . . 372.4.5.1 Intrare . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.4.5.2 Combinare euristic  . . . . . . . . . . . . . . . . . . . . 382.4.5.3 Ordonarea formatelor s

,i generarea lingvistic  . . . . . . 38

2.5 Generarea limbajului natural . . . . . . . . . . . . . . . . . . . . . . . . . 392.5.1 Introducere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 392.5.2 Metode de generare a limbajului natural . . . . . . . . . . . . . . 392.5.3 S

,abloane de text . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

3 Rezultate 43

3.1 Evaluare uman  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.1.1 Organizare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.1.2 Evaluarea rezultatelor . . . . . . . . . . . . . . . . . . . . . . . . 463.1.3 Evaluarea coerent

,ei . . . . . . . . . . . . . . . . . . . . . . . . . . 46

3.2 Evaluare automat  . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4 Concluzii s,i perspective 49

6

Capitolul 1

Metod  general 

1.1 Sumarizare. Sumarizare automat 

Obiectivul sumariz rii automate este de a prelua informat,iile de la o surs , de a

extrage cont,inutul din ele s

,i de a prezenta esent

,ialul din acest cont

,inut într-o form 

condensat , într-o manier  sensibil  la nevoile utilizatorului, �e el uman sau o aplicat,ie

[Mani, 2001].Exemple de sumarizare exist  oriunde în viat

,a cotidian  contemporan . Titlurile

ziarelor sunt frecvent rezumate ale articolelor cont,inute, scrise într-un stil atr g tor.

Abstractele articolelor s,tiint

,i�ce sunt rezumate în form  tradit

,ional , scrise chiar de au-

tori sau de persoane special desemnate. Tabelele care arat  statistici din fotbal pentruun juc tor sau pentru o echip  sunt în mare parte rezumate, precum sunt s

,i recenziile

(pentru c rt,i sau �lme), ghidurile programelor TV, programele conferint

,elor, prognozele

meteorologice, curriculum vitae, necrologurile, paginile web care listeaz  resurse pentruun anumit domeniu, cuprinsurile c rt

,ilor sau revistelor, chiar s

,i cataloagele cu produse

disponibile la comerciant,i.

Un sumarizator este un sistem de prelucrare automat  a unuia sau mai multor texte,cu scopul obt

,inerii unui rezumat (sumar) util unui utilizator uman [Mani, 2001].

Exist  o varietate de parametri care pot in�uent,a proiectarea, dezvoltarea s

,i rezul-

tatele unui sistem de sumarizare. Aces,tia au fost discutat

,i de mult

,i autori, precum

[Mani s,i Maybury, 1999], [Mani, 2001], [Hovy, 2001] etc. s

,i sunt prezentat

,i succint în

continuare:

1. Rat  de compresie. Lungimea unui rezumat poate varia, în principiu, de la put,in

mai scurt decât lungimea intr rii pân  la aproape zero. Acest lucru înseamn  c rata de condensare (sau rat  de compresie), descris  în ecuat

,ia 1.1, poate varia

de la put,in sub 100% pân  la put

,in peste 0%.

wh→ h(w) = v,Rh =

length(v)

length(w)≤ 1 (1.1)

7

Claudiu Mih il 

unde w, respectiv v, sunt sursa, respectiv rezumatul, iar length() reprezint  funct,ia

de lungime din punctul de vedere al criteriului ales (num r de bit,i, num r de cu-

vinte, num r de propozit,ii sau chiar paragrafe). Funct

,ia h reprezint  sistemul de

sumarizare.

2. Auditoriu. Rezumatul focalizat pe utilizator poate � format prin utilizareaunui limbaj speci�c unui anumit tip de utilizator, luând în considerare interesele,cunos

,tint

,ele s

,i nevoile acestuia. Pe de cealalt  parte, rezumatele generice sunt

destinate unui grup larg s,i variat de cititori.

3. Relat,ie fat

,  de surs . Rezumatele pot � de dou  tipuri, în funct

,ie de acest

criteriu: extracte s,i abstracte. Prima categorie se refer  la rezumatele formate

prin copierea integral  a unor sect,iuni din surs . De exemplu, un rezumat cu rata

de condensare de 25% va cont,ine un sfert din documentul init

,ial. Aceast  proport

,ie

se poate referi la num rul de cuvinte, la num rul de propozit,ii, la num rul de

paragrafe. De obicei se aplic  metode statistice pentru identi�carea s,i extract

,ia

propozit,iilor cheie dintr-un articol. Spre deosebire, abstractele sunt rezumate al

c ror text nu este prezent, cel put,in part

,ial, în surse. În general, un abstract ofer 

posibilitatea unui grad de condensare mai mare: un abstract mai scurt poate oferimai mult  informat

,ie decât un extract de aceeas

,i lungime sau chiar mai lung.

4. Funct,ie. Din acest punct de vedere, rezumatele abstracte pot � indicative, in-

formative sau critice. Un abstract indicativ ofer  referint,e pentru selectarea

documentelor, în cazul dorint,ei de aprofundare a subiectului. Un abstract infor-

mativ acoper  informat,ia important  din surs  cu anumit grad de detaliu. Un

abstract critic evalueaz  problematica articolului surs , exprimând opinia abstrac-torului despre calitatea lucrului autorului. Printre acestea se num r  recenziile,care includ p reri, feedback, identi�carea sl biciunilor, recomand ri etc. Totus

,i, un

astfel de sistem este considerat peste scopul actual al sumarizatoarelor, deoarecedepinde într-o mare m sur  de interpretarea cultural . Trebuie ment

,ionat îns  c 

aceast  distinct,ie nu este una exclusiv . Rezumatele informative sunt de obicei s

,i

indicative, iar cele critice pot � indicative sau informative.

5. Coerent, . Un text incoerent este unul nelegat, în care propozit

,iile nu sunt închegate

pentru a forma un întreg. Acest defect se poate datora referint,elor anaforice sau

expresiilor temporale nerezolvate (sau rezolvate incorect), propozit,iilor care repet 

aceeas,i informat

,ie (situat

,ie care se numes

,te redundant

, ), logicii incorecte, lipsei

unei organiz ri etc.

6. Acoperire. Rezumatele pot � produse dintr-un singur document sau din mai multedocumente, as

,a cum este cazul sumariz rii multi-document (MDS1). În cazul MDS,

1Multi-Document Summarization

8

Sumarizare automat  focalizat  temporal

Imaginea 1.1: Relat,ia dintre rezumatele indicative, informative s

,i critice

sistemul de sumarizare identi�c  asem n rile s,i/sau deosebirile dintre articole s

,i,

eventual, le semnaleaz  în rezumat.

7. Limb . Rezumatele pot � monolingve (se proceseaz  doar o singur  limb , cuies

,irea în aceeas

,i limb ), multilingve (se proceseaz  mai multe limbi, cu ies

,irea

într-o limb  din cele de la intrare) sau translingve (se proceseaz  mai multe limbi,dar ies

,irea este într-o alt  limb  decât cele de intrare). De asemenea, rezumatele

pot � restrict,ionate la un limbaj particular, un vocabular specializat (în cazul în

care utilizatorul dores,te, de exemplu, un manual tehnic), sau la un limbaj adecvat

elevilor sau turis,tilor str ini, care au nevoie de un vocabular simplu, f r  construct

,ii

complexe.

8. Gen. Un sistem de sumarizare poate aplica strategii speciale pentru variet t,i

diferite de texte, precum rapoartele s,tiint

,i�ce sau tehnice, articolele de s

,tiri, mesajele

e-mail, c rt,i, editoriale etc.

9. Media. Rezumatele pot cont,ine diferite tipuri media (text, audio, tabele, imagini

s,i diagrame, �lme). În sumarizarea multimedia, intrarea s

,i ies

,irea constau într-o

combinare de tipuri media distincte.

În cazul oric rei aplicat,ii, important

,a acestor parametri variaz , depinzând în prin-

cipal de domeniul în care ea va � utilizat  s,i c rui tip de grup îi este adresat rezumatul

produs de ea. Este improbabil ca în dezvoltarea unui sistem s  se t,in  cont de tot

,i

parametrii.

1.1.1 Abord ri

Metodele de baz  pentru sumarizare pot � împ rt,ite în dou  categorii, în funct

,ie de

proces rile lingvistice utilizate.

1. Abord ri super�ciale2. În cazul acestora nu se merge mai departe de un nivel de

2Shallow approaches

9

Claudiu Mih il 

reprezentare a sintaxei propozit,ionale. Este posibil, totus

,i, ca unele cuvinte s  �e

analizate s,i semantic. Rezultatul acestor abord ri este de obicei un extract, obt

,inut

prin extract,ia de propozit

,ii. Acest fapt impune îns  veri�carea incoerent

,elor care

pot ap rea din cauza extract,iei, rearanj rii textului, referint

,elor anaforice nerezol-

vate etc.

2. Abord ri aprofundate3. Acestea presupun cel put,in un nivel de reprezentare a se-

manticii propozit,ionale. De obicei, aceste sisteme produc abstracte al c ror text

este generat. De aceea obiectivul lor este crearea unui text care s  �e coerent,folosind pentru aceasta diverse reguli despre modul în care segmentele de discursse leag  între ele.

1.2 Arhitectur  abstract  pentru sumarizare

Dat  �ind prezent,a din ce în ce mai numeroas  a surselor de s

,tiri on-line, este de

as,teptat ca informat

,iile cele mai interesante s

,i importante s  �e acoperite de majoritatea,

dac  nu de toate, sursele. Dac  mai multe surse prezint  aceeas,i informat

,ie, este evident

c  utilizatorul are nevoie de numai una din ele. Dar deoarece aceste informat,ii sunt

modi�cate de un num r mare de ori, într-o perioad  scurt  de timp, datorit  schimb rilorde situat

,ie de dup  s

,tirea init

,ial , acest lucru nu este posibil. Scopul unui sistem de

sumarizare inteligent este de a prelua o cantitate cât mai mare de informat,ii de la diverse

surse s,i de a le prezenta concis utilizatorului. De exemplu, dac  dou  surse distincte

prezint  �ecare câte un num r (diferit de cel lalt) de victime ale unui incident, sistemulnu trebuie s  aleag  între cele dou  surse, ci s  prezinte contradict

,ia dintre ele, atribuind

�ec rui num r sursa sa.Majoritatea sumarizatoarelor multidocument reus

,esc s  extrag  propozit

,ii care apar

în mai multe documente (datorit  cres,terii semni�cative a gradului de important

,  asociat

�ec reia), dar nu reus,esc s  identi�ce motivele pentru care propozit

,iile alese sunt similare.

De asemenea, aceste sisteme de sumarizare nu sunt capabile s  identi�ce nici diferent,ele

majore. Spre deosebire de acestea, sistemul prezentat în continuare se bazeaz  pe iden-ti�carea asem n rilor s

,i contradict

,iilor dintre diferite surse s

,i redarea lor utilizatorului

într-o form  concis .În imaginea 1.2, pagina 11, am reprezentat o arhitectur  de nivel înalt a unui suma-

rizator. Acesta t,ine cont de unul din parametrii descris

,i în sect

,iunea 1.1, pagina 7, rata

de condensare. Aceasta variaz  de obicei între 5% s,i 30%, des

,i au fost folosite s

,i rate de

compresie mai mari sau mai mici.Tot din imaginea 1.2 se observ  c  procesul de sumarizare este împ rt

,it în trei faze

principale. Aceast  idee apare deseori în literatur , precum în [Mani s,i Maybury, 1999],

[Hovy, 2001]:

3Deeper approaches

10

Sumarizare automat  focalizat  temporal

Imaginea 1.2: Arhitectura de nivel înalt a unui sistem de sumarizare

1. Analiz . În aceast  faz  se analizeaz  documentele de la intrare s,i se construies

,te

o reprezentare intern  a acestora. Aces,ti doi subpas

,i sunt descris

,i în sect

,iunile 2.2,

pagina 25, respectiv 2.3, pagina 28.

2. Transformare. În aceast  faz , numit  uneori s,i ra�nare, sunt transformate re-

prezent rile interne ale documentelor originale în reprezentarea intern  a rezuma-tului. Faza de transformare este aplicabil  de cele mai multe ori sistemelor careproduc abstracte sau care execut  compact ri ori rezumate multi-document. Sis-temele care produc extracte dintr-un singur document tind s  sar  peste aceast faz , direct de la Analiz  la ies

,ire. Aceast  etap  este detaliat  în sect

,iunea 1.3,

pagina 12.

3. Sintez . Reprezentarea intern  a rezumatului este prelucrat  s,i readus  în limbaj

natural. Metoda folosit  în cazul acestei lucr ri este analizat  în sect,iunea 2.5,

pagina 39.

Trebuie notat, totus,i, c  granit

,ele dintre aceste trei faze nu sunt bine de�nite. De

exemplu, în [Pinto Molina, 1995] sunt propus,i patru pas

,i succesivi care trebuie îndepli-

nit,i de abstractorii profesionis

,ti: interpretare (care implic  citire s

,i înt

,elegere), select

,ia

informat,iei pertinente, necesar  utilizatorului, reinterpretarea informat

,iei pertinente s

,i

sinteza rezumatului. Se poate considera, îns , c  pasul de reinterpretare face parte dincel de transformare.

Pentru faza de transformare exist  în literatur  trei operatori de condensare de baz ,pe care un sumarizator trebuie s  îi includ . Conform lucr rilor [Mani s

,i Maybury, 1999],

[Mani, 2001], aces,tia sunt:

1. select,ia � �ltrarea elementelor.

11

Claudiu Mih il 

2. agregarea � unirea elementelor.

3. generalizarea � înlocuirea elementelor cu unele mai generale/abstracte.

Alt,i operatori, mai complecs

,i, precum parafrazarea sau simpli�carea, pot � exprimat

,i

utilizând operatorii de baz . Operat,iile sunt efectuate pe diverse elemente, precum cu-

vinte, grupuri de cuvinte, propozit,ii sau chiar pe întregul discurs.

1.3 Proces ri

Exist  un num r de pas,i care trebuie îndeplinit

,i pentru a putea ajunge la crearea

rezumatului propriu-zis.

1.3.1 Segmentare

Segmentarea textului reprezint  procesul de împ rt,ire a textului surs  în paragrafe

s,i propozit

,ii. Vom numi un document procesat în aceste fel Docsent (not

,iune preluat 

de la [Radev et al., 2004], provenit  din cuvintele englezes,ti document s

,i sentence). Un

exemplu de obiect docsent apare în exemplul 1.1, pagina 12.�<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE DOCSENT SYSTEM "docsent.dtd">

<docsent did="41" lang="eng">

<body>

<headline>

<s par="1" rsnt="1" sno="1">Egyptians Su f f e r Second Air Tragedy in a

Year</s>

</headline>

<text>

<s par="2" rsnt="1" sno="2">CAIRO, Egypt −− The crash o f a Gulf Air f l i g h t

that k i l l e d 143 people in Bahrain i s a d i s tu rb ing de ja vu f o r

Egypt ians : I t i s the second plane crash with in a year to devastate t h i s

Arab country .</s>

<s par="2" rsnt="2" sno="3">Sixty−three Egyptians were on board the Airbus

A320 , which crashed in to sha l low Pers ian Gulf waters Wednesday night

a f t e r c i r c l i n g and t ry ing to land in Bahrain .</s>

<s par="2" rsnt="3" sno="4">On Oct . 31 , 1999 , a plane ca r ry ing 217 mostly

Egyptian pas senge r s crashed in to the At l an t i c Ocean o f f

Massachusetts .</s>

<s par="2" rsnt="4" sno="5">The cause has not been determined , prov id ing

no c l o s u r e to the f am i l i e s , whose g r i e f was reopened t h i s month with

the r e l e a s e o f a f a c t u a l r epor t by the Nat iona l Transportat ion Sa fe ty

Board .</s>

</text>

</body>

12

Sumarizare automat  focalizat  temporal

</docsent>� �Exemplul 1.1: Un exemplu de obiect Docsent segmentat la nivel de propozit

,ii.

Aceast  împ rt,ire în paragrafe s

,i propozit

,ii este realizat  printr-o parcurgere secvent

,i-

al  a textului, când se încearc  detectarea semnelor de punctuat,ie care pot ar ta sfârs

,itul

unei propozit,ii. Acestea pot � semne simple, precum punctul (.), semnele întreb rii (?)

s,i exclam rii (!), sau semne compuse, precum elipsa (...) sau combinat

,ii de semne ale

întreb rii s,i exclam rii (?!, !?).

O problem  care poate ap rea la acest nivel o reprezint  abrevierile, care de obiceise termin  cu punct. În cazul în care algoritmul nu este preg tit pentru aceast  situat

,ie,

el va considera c  propozit,ia se sfârs

,es

,te dup  abreviere (Mr.) sau chiar în interiorul ei

(U.S.A.). Pentru a dep s,i acest inconvenient, am folosit un corpus de abrevieri disponibil

on-line4, care a servit la veri�carea existent,ei acestora în text. Astfel, ele vor � substituite

astfel încât s  nu existe confuzii cu privire la sfârs,itul real al propozit

,iilor. Dup  efectuarea

împ rt,irii în propozit

,ii, abrevierile înlocuite anterior vor � readuse la forma init

,ial , textul

�ind p strat în acest fel nealterat.Textul care rezult  dup  împ rt

,irea în propozit

,ii va � stocat într-un �s

,ier XML.

Etichetele folosite pentru marcare, exempli�cate în exemplul 1.1, pagina 12, au urm -toarele semni�cat

,ii:

• docsent - un document marcat în propozit,ii, care are identitatea did s

,i este scris

în limba lang;

• body - cont,inutul documentului;

• headline - titlul documentului;

• text - cont,inutul propriu-zis al documentului;

• s - o propozit,ie, care apart

,ine paragrafului par s

,i este a rsnt-a propozit

,ie în cadrul

paragrafului s u s,i a sno-a propozit

,ie din textul întreg.

Dup  cum se observ  din exemplu, consider m c  s,i titlul este o propozit

,ie, a�at 

într-un paragraf separat, deoarece ofer  ideea general  a textului, �ind astfel un rezumatde câteva cuvinte al informat

,iilor care urmeaz .

În cadrul dezvolt rii aplicat,iei, am creat o expresie regulat  prin care s-a realizat

segmentarea textului în propozit,ii. Cea folosit  în acest caz este urm toarea:

(.+?[\.\!\?\n][\"\)]?)(?=(?:\s+[\"\(]?[A-Z]|\s*$))

Expresia permite identi�carea s,abloanelor de text care încep cu majuscul  s

,i se ter-

min  cu semnele punct, întreb rii, exclam rii sau linie nou . Spat,iile suplimentare de la

începutul sau sfârs,itul propozit

,iilor sunt ignorate. În cadrul propozit

,iilor sunt acceptate

s,i citate (în ghilimele sau apostrofuri � "", �) sau explicat

,ii în paranteze (()).

4http://www.abbreviations.com/

13

Claudiu Mih il 

1.3.2 Analiz  morfologic 

Analizorul morfologic (la nivel de cuvânt) este un modul care marcheaz  pentru �ecarecuvânt din text clasa morfologic  a acestuia, bazându-se atât pe de�nit

,ia cuvântului, cât s

,i

pe contextul în care apare � în sensul de relat,ia cu alte cuvinte, adiacente, din propozit

,ie,

fraz  sau paragraf. Unele analizoare marcheaz  s,i apartenent

,a la grupuri sintactice (sub-

stantivale, verbale, adjectivale etc.). Vom numi un document astfel procesat Docpos(not

,iune preluat  de la [Radev et al., 2004], provenit  din cuvântul document s

,i acron-

imul POS � Part Of Speech). Un exemplu de obiect docpos este inclus în exemplul 1.2,pagina 14.�<?xml version="1.0" encoding="UTF-8"?>

<!DOCTYPE DOCPOS SYSTEM "docpos.dtd" >

<docpos did="D-19970701_001.e" lang="eng">

<body>

<headline>

<s par="1" rsnt="1" sno="1"> <w c="jj">Solemn</w> <w c="nn">ceremony</w>

<w c="vbz">marks</w> <w c="nnp">Handover</w> </s>

</headline>

<text>

<s par="2" rsnt="1" sno="2"><w c="dt">A</w> <w c="jj">solemn</w><w

c=",">,</w> <w c="jj">h i s t o r i c</w> <w c="nn">ceremony</w> <w

c="vbz">has</w> <w c="vbn">marked</w> <w c="dt">the</w> <w

c="nn">resumption</w> <w c="in">of</w> <w c=="dt">the</w> <w

c="nn">ex e r c i s e</w> <w c="in">of</w> <w c="nn">sove r e i gn ty</w> <w

c="in">over</w> <w c="nnp">Hong</w> <w c="nnp">Kong</w> <w

c="in">by</w> <w c="dt">the</w> <w c="nns">People</w><w c="pos">` s</w>

<w c="nnp">Republ ic</w> <w c="in">of</w> <w c="nnp">China</w><w

c=".">.</w></s>

<s par="3" rsnt="1" sno="3"><w c="prp$">His</w> <w c="nnp">Royal</w> <w

c="nnp">Highness</w> <w c="nnp">The</w> <w c="nnp">Prince</w> <w

c="in">of</w> <w c="nnp">Wales</w> <w c="cc">and</w> <w c="dt">the</w>

<w c="nnp">Pres ident</w> <w c="in">of</w> <w c="dt">the</w> <w

c="nns">People</w><w c="pos">` s</w> <w c="nnp">Republ ic</w> <w

c="in">of</w> <w c="nnp">China</w> <w c="(">(</w><w c="nnp">PRC</w><w

c=")">)</w> <w c="nnp">HE</w> <w c="nnp">Mr</w> <w c="nnp">Jiang</w> <w

c="nnp">Zemin</w> <w c="dt">both</w> <w c="nn">spoke</w> <w

c="in">at</w> <w c="dt">the</w> <w c="nn">ceremony</w><w c=",">,</w> <w

c="wdt">which</w> <w c="vbd">st radd l ed</w> <w c="nn">midnight</w> <w

c="in">of</w> <w c="nnp">June</w> <w c="cd">30</w> <w c="cc">and</w> <w

c="nnp">July</w> <w c="cd">1</w><w c=".">.</w></s>

<s par="4" rsnt="1" sno="4"><w c="dt">The</w> <w c="nn">ceremony</w> <w

c="vbd">was</w> <w c="vbn">t e l e c a s t</w> <w c="jj">l i v e</w> <w

c="in">around</w> <w c="dt">the</w> <w c="nn">world</w><w

c=".">.</w></s>

</text>

</body>

14

Sumarizare automat  focalizat  temporal

</docpos>� �Exemplul 1.2: Un exemplu de obiect Docpos.

Textul care rezult  dup  atribuirea p rt,ilor de vorbire va � stocat într-un �s

,ier XML.

Etichetele folosite pentru marcarea, exempli�cate în exemplul 1.2, pagina 14, au urm -toarele semni�cat

,ii:

• docpos - un document marcat cu p rt,i de vorbire, care are identitatea did s

,i este

scris în limba lang;

• body - cont,inutul documentului;

• headline - titlul documentului;

• text - cont,inutul propriu-zis al documentului;

• s - o propozit,ie, care apart

,ine paragrafului par s

,i este a rsnt-a propozit

,ie în cadrul

paragrafului s u s,i a sno-a propozit

,ie din textul întreg;

• w - un cuvânt, care apart,ine clasei de p rt

,i de vorbire c;

• c - clasa (partea de vorbire) c reia apart,ine cuvântul; câteva exemple sunt prezen-

tate în tabelul din �gura 1.1, de la pagina 15.

Clas  Semni�cat,ie

nn substantivnnp substantiv propriunns substantiv pluraljj adjectivdt articolin prepozit

,ie

cc conjunct,ie

vbn verb modul participiuvbz verb persoana a III-a singularvbd verb timpul trecut

Figura 1.1: Clase de p rt,i de vorbire

Dup  cum se observ  din exemplu, s,i cuvintele din titlu sunt marcate, ele putând oferi

informat,ii relevante.

1.3.3 Recunoas,terea entit t

,ilor

Recunoas,terea entit t

,ilor (cunoscut  s

,i ca identi�carea entit t

,ilor) este o cerint

,  a

extract,iei de informat

,ie care încearc  s  localizeze s

,i s  clasi�ce elemente atomice din text

15

Claudiu Mih il 

în categorii prede�nite, precum nume de persoane, organizat,ii, locuri, expresii temporale,

cantit t,i, procentaje etc.

Cel put,in dou  ierarhii de entit t

,i au fost propuse în literatur . Categoriile BBN5,

propuse în 2002, sunt folosite pentru sistemele de întrebare-r spuns s,i sunt formate din 29

de tipuri s,i 64 de subtipuri. Ierarhia extins  a lui Sekine, propus  în 2002 ([Sekine, 2003]),

este format  din 200 de subtipuri.

Un exemplu de identi�care a entit t,ilor, realizat de un sistem care produce marcarea

în format Message Understanding Conferences, este inclus în exemplul 1.3, pagina 16.�Jim bought 300 share s o f Acme Corp . in 2006 .

<ENAMEXTYPE="PERSON">Jim</ENAMEX> bought <NUMEX

TYPE="QUANTITY">300</NUMEX> share s o f <ENAMEXTYPE="ORGANIZATION">Acme

Corp .</ENAMEX> in <TIMEX TYPE="DATE">2006</TIMEX>.� �Exemplul 1.3: Exemplu de identi�care a entit t

,ilor

Etichetele folosite la marcarea entit t,ilor din exemplul 1.3, pagina 16, precum s

,i valo-

rile atributului type pe care acestea le au, sunt explicate în tabelul din �gura 1.2, pagina16.

Clas  Semni�cat,ie

ENAMEX nume de lucruri sau �int,e, concrete sau abstracte

PERSON nume de persoane, reale, legendare sau �ctive, in-clusiv porecle

ORGANIZATION nume de organizat,ii compuse din mai mult de o

persoan NUMEX termeni care exprim  valori numericeQUANTITY termeni care exprim  cantit t

,i

TIMEX termeni care exprim  un punct sau un interval peaxa temporal 

DATE termeni care exprim  o dat 

Figura 1.2: Clase de entit t,i

Sistemele NER6 pot � dezvoltate astfel încât s  poat  folosi tehnici bazate pe gramaticisau modele statistice. Sistemele bazate pe gramatici dezvoltate manual obt

,in rezultate

mai bune, dar presupun un cost mai mare cel put,in din punct de vedere al timpului

necesar lingvis,tilor experimentat

,i. Sistemele NER statistice au nevoie de o cantitate

foarte mare de date adnotate manual pentru antrenare.

5BBN Technologies (originar Bolt Beranek and Newman)6Named-Entity Recognition

16

Sumarizare automat  focalizat  temporal

1.3.4 Rezolut,ia referint

,elor anaforice

Conform [Mitkov, 2002], o referint,  anaforic  reprezint  o secvent

,  lexical  (numit  s

,i

anafor ), în general realizat  printr-un grup nominal, care poate avea diferite interpret ri,în funct

,ie de contextul în care apare. Secvent

,a lexical  care determin  interpretarea

anaforei, de cele mai multe ori precedându-l pe acesta în text, se numes,te antecedent.

Relat,ia dintre anafor  s

,i antecedent poart  numele de relat

,ie anaforic . În general, pen-

tru g sirea acestei relat,ii trebuie luate în considerare o gam  divers  de propriet t

,i mor-

fologice, sintactice s,i semantice ale cuvintelor, în contextul lor de utilizare.

Exist , îns , unele teorii, precum cea din [Halliday s,i Hasan, 1976], în care de�nit

,ia

strict  a anaforei include doar referint,ele la entit t

,i anterioare. Continuând sub aceast 

de�nit,ie, referint

,ele la entit t

,i ulterioare se numesc catafore, iar situat

,ia în general se

numes,te endofor . De asemenea, este de�nit termenul de exofor , care denumes

,te situa-

t,iile când referint

,a nu se a�  în textul în care apare secvent

,a problematic , ci în lumea

real .Urmeaz  câteva exemple simple de referint

,e anaforice, în care evident

,iem cazurile

enunt,ate anterior.

The monkey took the banana and ate it.Figura 1.3: Exemplu de referint

,  endoforic 

Cuvântul it este o referint,  anaforic  în sensul strict al de�nit

,iei. El se refer  la

banan .

What is this?Figura 1.4: Exemplu de referint

,  exoforic 

Spre deosebire, în exemplul din �gura 1.4 cuvântul this este o referint,  anaforic 

care poate � considerat  exofor , dac  nici înainte, nici dup  aceast  secvent,  textul

nu cont,ine elemente care s  permit  identi�carea cu exactitate a entit t

,ii din spatele

pronumelui this. Pronumele se poate referi la un obiect din preajma vorbitorului sau lao situat

,ie la care el ia parte.

Rezolut,ia acestor referint

,e anaforice reprezint  încercarea de a trata aceste situat

,ii care

apar în mod colocvial, adic  g sirea elementului la care anafora face referire. Aceastaeste necesar  în cazul în care unele propozit

,ii care cont

,in anafore sunt scoase din context.

The Prime Minister of New Zealand visited us yesterday. The visit was the �rst time shehad come to New York since 1998.

Figura 1.5: Exemplu de referint,  anaforic 

Dac  cea de-a doua propozit,ie din exemplul din �gura 1.5 este scoas  din context, ea

nu va � înt,eleas  pe deplin, în sensul c  cititorul nu va s

,ti c  she se refer  la The Prime

Minister of New Zealand. În urma rezolut,iei, propozit

,ia ar deveni:

17

Claudiu Mih il 

The visit was the �rst time the Prime Minister of New Zealand had come to New Yorksince 1998.

Figura 1.6: Exemplu de referint,  anaforic  rezolvat 

Totus,i, exist  situat

,ii când, chiar având la dispozit

,ie contextul, complexitatea rezolu-

t,iei cres

,te semni�cativ.

The army was marching towards Golan Heights.The soldiers wanted to get there faster.

Figura 1.7: Exemplu de referint,  anaforic  complex 

În acest caz este mult mai greu s  rezolv m referint,ele anaforice. Pe de o parte, este

necesar  o înt,elegere semantic  a faptului c  o armat  este format  din mai mult

,i soldat

,i.

Pe de alt  parte, trebuie cunoscut c  un nume de loc poate � la plural.

1.3.5 Coreferint,e între documente

În vederea aplic rii sumariz rii automate asupra unei colect,ii de mai multe documente,

este necesar  existent,a unui grad de apropiere în ceea ce prives

,te informat

,ia cont

,inut .

În mod evident, cu cât documentele din colect,ie sunt mai apropiate ca subiecte abordate,

cu atât cres,te probabilitatea ca sistemul s  descopere asem n rile.

Rezolvarea acestei situat,ii presupune stabilirea faptului dac  dou  referint

,e, posibil

�ecare dintr-o surs  de informat,ie diferit , trebuie s  �e conectate sau nu.

The earthquake was centered on the industrial city of Izmit.Today's quake was centered on Izmit.

Figura 1.8: Exemplu de coreferint, 

Trebuie cunoscut faptul c  quake este sinonim cu earthquake, c  earthquake s,i today's

quake se refer  la acelas,i eveniment (fapt foarte important, deoarece cutremurele majore

au replici semni�cative).Între informat

,iile cuprinse în mai multe documente pot exista mai multe tipuri de

relat,ii. Acestea sunt prezentate schematic în �gura 1.9, pagina 19, conform [Radev, 2000],

[Mani, 2001].Situat

,ia diferent

,elor dintre sursele de informat

,ie ridic  problema calit t

,ii informat

,iei

� nu toate sursele sunt la fel de credibile. O surs  complet plauzibil  este greu de g sit,dar cu sigurant

,  exist  multe surse care sunt neverosimile.

1.3.6 Analiz  sintactic 

Din cauza ambiguit t,ii substant

,iale care apare în limbajul uman, analizatoarelor sin-

tactice nu le este us,or s  parseze propozit

,ii din limbaj natural. Pentru a reus

,i în rezolvarea

acestei probleme este necesar  stabilirea gramaticii care va � utilizat .

18

Sumarizare automat  focalizat  temporal

Tipul relat,iei Descriere

identitate Acelas,i text apare în mai multe locat

,ii.

echivalent,  Dou  unit t

,i de text au acelas

,i cont

,inut de

informat,ie.

traducere Acelas,i cont

,inut informativ în limbi diferite.

incluziune O propozit,ie cont

,ine mai mult  informat

,ie decât o

alta.contradict

,ie Informat

,iile sunt con�ictuale.

cadru istoric Informat,ie care pune informat

,ia curent  în con-

text.coreferint

,  Aceeas

,i referint

,  este ment

,ionat  în mai multe

locat,ii.

citare O propozit,ie citeaz  un alt document.

atribuire O propozit,ie repet  informat

,ia dintr-o alta,

ad ugând o atribuire.rezumat O unitate de text sumarizeaz  o alta.continuare Informat

,ie adit

,ional , care cont

,ine fapte care au

avut loc dup  ultima descriere.elaborare Informat

,ie care nu fusese inclus  în ultima de-

scriere.vorbire indirect  Schimbarea vorbirii directe în indirect  s

,i invers.

ra�nare Informat,ie care este mai speci�c  decât cea inclus 

anterior.acord O surs  exprim  acordul cu o alta.îndeplinire O predict

,ie care s-a adeverit.

descriere Introducerea unei descrieri.contrast Contrastarea a dou  fapte.paralel  Compararea a dou  fapte.generalizare Vedere de ansamblu.schimbarea perspectivei Aceeas

,i surs  prezint  faptele dintr-un alt punct

de vedere.

Figura 1.9: Tipuri de relat,ii între documente

Majoritatea parserelor moderne sunt m car part,ial statistice; cu alte cuvinte, ele se

bazeaz  pe un corpus de antrenament, care a fost în prealabil adnotat manual. Aceast metod  permite sistemului s  creeze statistici privitoare la probabilitatea de aparit

,ie a

anumitor construct,ii lexicale în diferite contexte. Printre metodele care sunt folosite se

num r  gramaticile independente de context probabiliste, ret,elele neuronale, entropia

maxim .

1.3.7 Expresii temporale

O expresie temporal  este o combinat,ie de evenimente s

,i operatori temporali care de-

scrie un comportament. O expresie temporal  exprim  relat,ii temporale între evenimente,

19

Claudiu Mih il 

valori, variabile sau alt,i itemi.

Conform [Mani et al., 2005], [For scu s,i Ion, 2006], informat

,ia temporal  este repre-

zentat  în limbajul natural prin:

• expresii temporale exprimate prin grupuri nominale, prepozit,ionale sau adverbiale

� ore (timp al zilei), date, durate: acum s,apte ore, septembrie 1986, anii 90, 29

februarie 2008 etc.; aceste expresii temporale refer  timpul ca:

� punct (moment): Am luat cina la ora nou sprezece.

� interval: Maria a lucrat ieri.

• expresii ce denot  evenimente exprimate în principal, pe lâng  adjective, clauzepredicative sau grupuri frazale prepozit

,ionale, prin:

� propozit,ii, mai exact prin centrul (eng. head) sintactic, anume verbul princi-

pal: George a plecat la mare.

� grupuri nominale: Greva va continua s,i în zilele urm toare.

Expresiile ce denot  timpul pot avea:

• referint,e explicite (speci�cate), care refer  la o intrare într-un sistem calendaristic

/ orar: amiaz , 11.10.2007 (midday, 11.10.2007 );

• referint,e implicite (sub-speci�cate) - pot � evaluate doar prin intermediul unui timp

indexat: anul viitor, s pt mâna trecut , acum dou  ore: În 2007, lunile februaries,i martie au fost foarte ploioase.

• referint,e vagi (nespeci�cate, neancorate), care nu pot � corelate cu un punct sau

interval exact de timp: dup -amiaz , în câteva s pt mâni, acum câteva zile.

Evenimentele exprimate prin verbe pot � temporal ancorate:

• indirect, prin categoria morfologic  a timpului s,i

• direct, prin modi�catori adverbiali (adverbe de timp s,i frecvent

, , grupuri nominale

s,i prepozit

,ionale s

,i clauze subordonate).

Pentru a codi�ca toate tipurile de expresii temporale, evenimente s,i relat

,ii între aces-

tea, a fost creat standardul TimeML [Pustejovsky et al., 2006], ale c rui fundamente s-aupus înc  din 2002. Standardul reunes

,te multe dintre eforturile anterioare de adnotare

temporal , diferind de acestea prin separarea reprezent rii evenimentelor s,i a expresiilor

temporale de leg turile de ancorare, ordonare sau dependent,  ce apar în texte.

Standardul TimeML de�nes,te 7 etichete: EVENT, MAKEINSTANCE (pentru eve-

nimente s,i instant

,e ale acestora � doar instant

,ele vor participa în leg turi temporale),

TIMEX3 (pentru expresii temporale de tip DATE, TIME, DURATION, SET, complet

20

Sumarizare automat  focalizat  temporal

speci�cate, sub- s,i non-speci�cate), SIGNAL (pentru elemente lexicale de leg tur ) s

,i

TLINK, ALINK, SLINK (pentru leg turi temporale, aspectuale s,i respectiv de subor-

donare între expresii s,i evenimente).

1.3.8 Ordonare temporal 

Ordonarea temporal  a informat,iei este important : dac  utilizatorul dores

,te doar

ultimele s,tiri, nu are sens s  se rezumeze articole anterioare celor curente, cu except

,ia

cazului în care este nevoie de crearea de context. Totus,i, dac  utilizatorul dores

,te o

cronologie de evenimente, atunci informat,iile esent

,iale trebuie prezentate într-o ordine

cronologic , eventual cu suport gra�c de reprezentare a informat,iei de-a lungul unei axe

temporale.

1.3.9 Similaritate cosinus

Conform [Mani, 2001], [Spärck Jones, 2004], unui cuvânt dintr-un document i se poateasocia o pondere tf · idf , o m sur  statistic  pentru evaluarea important

,ei unui cuvânt

într-un document dintr-un corpus. Important,a cres

,te o dat  cu frecvent

,a sa în document,

dar este redus  de frecvent,a sa în corpus.

Frevent,a termenului, tf 7, reprezint  num rul de aparit

,ii ale termenului în document,

de obicei normalizat la num rul de cuvinte din document, pentru a preveni dezechilibrulcare poate ap rea între documente mai scurte sau mai lungi.

tfi,j =ni,j∑k nk,j

(1.2)

În ecuat,ia 1.2, tfi,j reprezint  important

,a termenului i în documentul j, ni,j reprezint 

frecvent,a termenului i în documentul j, iar numitorul reprezint  num rul total de cuvinte

din documentul j.Frecvent

,a inversat  a documentului, idf 8, reprezint  important

,a general  a termenu-

lui, obt,inut  prin logaritmarea, în baza e, a câtului împ rt

,irii num rului total de docu-

mente la num rul de documente care cont,in termenul.

idfi = log|D|

|{dj : ti ∈ dj}|(1.3)

În ecuat,ia 1.3, |D| reprezint  num rul total de documente din corpus, iar |{dj : ti ∈

dj}| reprezint  num rul total de documente din corpus care cont,in termenul (deci pentru

care nk,j 6= 0).As

,adar, pentru un termen dintr-un document, ponderea tf ·idf a sa ia valori mari dac 

termenul are frecvent,a mare în acel document s

,i mic  în corpus; în acest fel, cuvintele

7term frequency8inverse document frequency

21

Claudiu Mih il 

comune, de leg tur , au ponderile aproape nule.

Utilizând ponderea tf · idf descris  mai sus, se obt,ine o metric , numit  similaritate

cosinus. Aceasta determin  gradul de similaritate dintre dou  documente, bazându-sepe formula unghiului dintre doi vectori în plan.

sim(x, y) = N1 +

∑N2

i=1 xiyi∑N2

i=1 x2i

∑N2

i=1 y2i

(1.4)

În ecuat,ia 1.4, xi reprezint  ponderea tf ·idf a cuvântului i în propozit

,ia x, yi ponderea

cuvântului i în propozit,ia y, N1 este cardinalul interesect, iei între cuvintele lui x s

,i ale lui

y, iar N2 este num rul total de cuvinte din x s,i y.

1.4 Exemple de sisteme de sumarizare

Pân  în prezent au fost create mai multe sisteme de sumarizare, �ecare bazat pe oalt  concept

,ie s

,i orientat spre alte nevoi de utilizare.

MEAD, descris în [Radev et al., 2000], este un sistem de sumarizare extractiv, bazatpe centre de greutate (sau centroizi). Acesta atribuie ponderi propozit

,iilor în funct

,ie

de tr s turile s,i relat

,iile lor cu celelalte propozit

,ii, ponderi care denot  calitatea lor ca

propozit,ii rezumat. Ulterior alege propozit

,iile cu ponderile cele mai mari s

,i le include în

rezumat. Sistemul MEAD poate rula atât pe documente scrise în limba englez , cât s,i

pe documente în limba chinez .

Sistemul Websumm [Mani s,i Bloedorn, 1999] foloses

,te un model bazat pe grafuri s

,i

opereaz  presupunând c  nodurile care au gradul cel mai mare cont,in, cu o probabilitate

ridicat , informat,ie care este relevant .

În [Hovy s,i Lin, 1999] este prezentat sistemul Summarist, un sumarizator extractiv

sau abstractiv. Acesta identi�c  într-un document ideile principale, le interpreteaz  s,i

produce rezumatul documentului.

În lucrarea [Radev et al., 2003] a fost efectuat  o evaluare a câtorva sisteme de suma-rizare. Printre acestea se num r MEAD,Websumm s

,i Summarist, descrise succint în

paragrafele anterioare. A fost evaluat  corelat,ia relevant

,ei (RC9) rezumatelor obt

,inute

utilizând sistemele ment,ionate fat

,  de textul original. Tabelul 1.1, pagina 22, cont

,ine

datele din lucrarea amintit . În mod evident, la compararea documentelor întregi (FD10),valoarea RC este 1,0.

As,a cum se as

,tepta, pe m sur  ce lungimea rezumatului cres

,te, el cont

,ine din ce

în ce mai mult  informat,ie relevant . Mai mult, performant

,a relativ  a diferitelor sis-

teme de sumarizare r mâne aproximativ aceeas,i, pe m sur  ce lungimea rezumatului este

modi�cat .

9relevance correlation10full document

22

Sumarizare automat  focalizat  temporal

5% 10% 20% 30% 40%FD 1,000 1,000 1,000 1,000 1,000

MEAD 0,724 0,834 0,916 0,946 0,962WEBS 0,730 0,804 0,876 0,912 0,936SUMM 0,622 0,710 0,820 0,848 0,862

Tabela 1.1: Corelat,ia relevant

,ei în funct

,ie de lungimea rezumatului s

,i sumarizator

Un alt sistem de sumarizare este prezentat în lucrarea [Or ³an s,i Chiorean, 2008].

Acest sistem este unul multilingv, care poate � folosit de vorbitorii de limba englez pentru a accesa s

,tiri din limba român . Sumarizatorul genereaz  rezumatele în limba

român , iar acestea sunt traduse ulterior în limba englez  folosind un serviciu de tra-ducere automat  româno-englez disponibil public. Sistemul se bazeaz  pe extract

,ia de

propozit,ii relevante din surs . Evaluând sistemul cu ajutorul judec torilor umani pe baza

rezumatelor în limba englez , autorii au concluzionat c  apare o descres,tere a procenta-

jului de întreb ri la care se r spunde corect fat,  de procentajul de întreb ri la care se

r spunde corect pe baza rezumatelor în limba român . Acest lucru se datoreaz  faptuluic , des

,i rezumatele în limba român  cont

,in informat

,ia important , acestea au o structur 

complex  a frazei, care nu poate � tradus  coerent de c tre traduc torul automat utilizat.Solut

,iile imaginate de autori cuprind crearea unui traduc tor mai bun s

,i, în leg tur  cu

aceasta, limitarea extract,iei la construct

,ii mai simple, care pot � traduse mai us

,or, deci

mai corect. Din p cate, o aplicare acestor metode va duce la pierderea de informat,ii

importante din rezumat. Totus,i, aceast  idee de sumarizare multilingv  poate � aplicat 

oric ror perechi de limbi, atât timp cât se poate face o traducere dintr-o limb  în cealalt .Unul dintre cele mai populare motoare de traducere automat , Google Translate

(http://translate.google.com), permite, în prezent, traduceri pentru 24 de limbi,ceea ce face posibil  traducerea între 276 de perechi posibile de limbi.

23

Capitolul 2

Sumarizare aplicat  pe corpusurile

MUC

2.1 Arhitectura sistemului

Sistemul dezvoltat are arhitectura descris  în imaginea 2.1, pagina 26. Sursele deinformat

,ie ofer  articole de s

,tiri, din care, prin prelucrarea oferit  de modulul Message

Understanding Conference (MUC), se extrag s,abloanele MUC. Aceste s

,abloane sunt de-

scrise în sect,iunea 2.3, pagina 28. Ulterior, asupra acestor s

,abloane sunt aplicat

,i divers

,i

operatori, care le modi�c  sau creeaz  s,abloane noi din cele vechi. Modalitatea de aplicare

a operatorilor s,i caracterizarea acestora sunt incluse în secs

,iunea 2.4, pagina 33. Dup 

ce nu se mai poate aplica nici un operator, lista de s,abloane este trimis  componentei

lingvistice, pe baza c rora se va genera text în limbaj natural, prin metodele explicate însect

,iunea 2.5, pagina 39.

2.2 Colect, ie de documente

2.2.1 Tipuri de documente

Sistemul prezentat în aceast  lucrare va avea ca intrare articole de s,tiri. Acest tip

de document a fost ales datorit  num rului relativ mare de referint,e temporale pe care

le cuprinde. În plus, informat,iile cont

,inute în aceste articole se modi�c  de obicei de

mai multe ori în aceeas,i zi, în cazul celor de actualitate, acest lucru evident

,iind mai bine

capacitatea sistemului de a se focaliza temporal.

Pentru a produce rezumate plauzibile s,i inteligibile, am utilizat corpusuri disponibile

on-line1 drept model. Din analiza corpusului MUC au rezultat unele construct,ii s

,ablon

sau fraze care au fost considerate potrivite pentru a � incluse în tipul de rezumat pe care

1http://www.itl.nist.gov/iaui/894.02/related_projects/muc/index.html

25

Claudiu Mih il 

Imaginea 2.1: Arhitectura sistemului

dorim s  îl gener m. Cele mai frecvente dintre aceste fraze sunt incluse în �gura 2.2,pagina 28.

Deoarece, prin natura lor, extrasele trebuie s  �e concise, scopul sistemului este con-struirea unor rezumate scurte, de un paragraf, care s  descrie evolut

,ia unui eveniment în

timp, sau a unor evenimente strâns legate între ele într-un num r mic de propozit,ii. De

un ajutor important este corpusul CSTI2, disponibil la www.berkshirepublishing.com/assets/pdf/pogt/Part4_Chronology.pdf.

2.2.2 Corpusuri utilizate

Aceast  sect,iune explic  modul în care ne-au ajutat la construct

,ia sistemului cor-

pusurile pe care le-am analizat. Am utilizat articole în special din corpusul MUC 4.Cronologia Incidentelor Teroriste Semni�cante (CSTI) este de asemenea un corpus de-osebit de relevant. Acesta cont

,ine descrieri succinte ale actelor teroriste care au avut loc

între anii 1961 s,i 2005. Am utilizat doar rezumatele evenimentelor din ultimii cât

,iva ani

(2004 � 640 evenimente, 2005 � 114 evenimente pân  la 17 august). Fiecare evenimenteste descris printr-un rezumat de numai un paragraf, care, la rândul lui, nu cont

,ine mai

mult de zece propozit,ii. Câteva exemple extrase din CSTI apar în �gura 2.1, pagina 27. În

sect,iunea urm toare vom detalia o parte dintre aceste paragrafe, pentru a ar ta structura

lor.

2Chronology of Signi�cant Terrorist Incidents

26

Sumarizare automat  focalizat  temporal

6 January 2001, Greece. In Athens, press reported an incendiary bomb placed underthe vehicle of a Turkish commercial attache exploded, resulting in no injuries but caus-ing major damage to the car. A group calling themselves the "Crazy Gas Cannisters"claimed responsibility.16 February 2001, Bangladesh. In Rangamati, armed tribesmen at a roadblock, kid-napped two British citizens and two Danes working for a Danish consulting �rm engagedin road work, according to press reports. The driver of the vehicle and one British citizenwere later released to deliver a ransom note to the authorities.1 November 2004, Israel. At the Carmel Market in Tel Aviv, Israel, a suicide bomberdetonated an explosive device, killing three civilians and injuring 30 others. The PopularFront for Liberation of Palestine (PFLP) claimed responsibility.13 December 2004, Gaza Strip. In Ganei Tal, Gaza Strip, unknown attackers �redseveral mortar rounds at an Israeli settlement, seriously wounding a Thai worker andslightly wounding two others. No group claimed responsibility.3 January 2005, Pakistan. In Pakistan, opposition politician Manzoor Hussain Shah,his driver and two bodyguards were shot dead in an ambush, possibly politically moti-vated, on January 3.3 February 2005, India. In India, suspected Maoist rebels are blamed for electionviolence in the Indian states of Jharkhand, Bihar and Haryana. At least 20 people werekilled in several incidents.

Figura 2.1: Exemple de rezumate din corpusul CSTI

2.2.3 Analiza corpusului

Rezumatele din �gura 2.1, pagina 27, urmeaz  nis,te tipare bine de�nite. De exemplu,

primul rezumat cont,ine informat

,ii despre un eveniment: un atac adresat unui atas

,at turc,

terminat prin explozia mas,inii s

,i r nirea nici unei persoane, revendicat de un grup terorist.

Dintr-un punct de vedere al discursului, cele dou  fraze apart,in unor tipuri diferite. Prima

fraz  este cea mai complex . Începe cu o construct,ie care prezint  raportorul (presa),

iar ulterior prezint  faptul (atacul). Fraza se sfârs,es

,te cu elaborarea atacului (urm rile

acestuia). A doua parte a rezumatului atribuie atacul unui grup.

Cel de-al doilea rezumat cont,ine informat

,ii despre dou  evenimente strâns legate între

ele: r pirea a patru persoane s,i eliberarea ulterioar  a dou  dintre ele. În prima fraz , se

speci�c  evenimentul produs s,i se asigneaz  responsabilitatea pentru acesta unor oameni

armat,i. De asemenea, se descrie locul de munc  al persoanelor r pite s

,i se ofer  sursa

informat,iilor. În partea a doua este prezentat un eveniment ulterior, în leg tur  cu

primul, eliberarea a dou  persoane, s,i se elaboreaz  asupra motivului eliber rii (biletul

de r scump rare).

Se observ  c  propozit,iile care formeaz  rezumatele sunt oarecum stereotipice, de

aceea a fost posibil  clasi�carea lor în nou  categorii, în funct,ie de relat

,iile retorice,

în lucrarea [Radev, 1999]. Aceste categorii sunt exempli�cate în �gura 2.2, pagina 28.Majoritatea propozit

,iilor din rezumatele CSTI se încadreaz  în aceste categorii.

27

Claudiu Mih il 

Tipul mesajului Exemplu

fapt Three civilians were killed in Baghdad, Iraq onThursday.

asignare responsabilitate BBC reported that a couple of armed men wereresponsible for the death of two civilians.

revendicare responsabilitate Al Qaeda claimed the kidnapping of two Americansoldiers.

raport Reuters reported that the terrorists kidnappedColindra in Guatemala.

total A total of �ve trains were hijacked in Spain inFebruary.

negare responsabilitate Al Qaeda denied responsibility for the kidnapping.nici o responsabilitate No organization claimed responsability for the

bombings.elaborare Three people were killed and �ve were injured in

the incident.descriere Sinn Fein is the political arm of IRA.

Figura 2.2: Exemple de tipuri de mesaje obt,inute din corpus

În urma analizei poves,tilor reale din spatele rezumatelor din �gura 2.1, pagina 27,

am realizat c  informat,iile din rezumate provin din una, dou  sau mai multe surse.

Explicat,ia acestui fapt este simpl . Atunci când un eveniment terorist are loc, de obicei

primele rapoarte redau locul s,i tipul atacului, însot

,ite de foarte put

,ine (sau chiar deloc)

alte informat,ii, precum rezultatul sau autorii act

,iunii. Astfel de informat

,ii apar mai

târziu, în relu ri ale subiectului. Uneori o surs  anunt,  c  ceea ce s-a difuzat anterior

nu era corect s,i îs

,i actualizeaz  datele cu informat

,ii mai noi. De multe ori, surse de s

,tiri

diferite prezint  informat,ii complementare (sau chiar contradictorii).

2.3 Modele de reprezentare

2.3.1 Introducere

Problema sumariz rii din mai multe documente impune ca sistemul folosit s  �e ca-pabil s  fac  diferent

,ierea între sursele de informat

,ie curent  (central ) s

,i sursele de

informat,ie ontologic .

Sursele de informat,ie curent  includ textul ce urmeaz  a � sumarizat. Sunt mereu

în form  textual  (eventual cu unele marcaje HTML, care trebuie îndep rtate în timpulpreproces rii). Aceste informat

,ii curente reprezint  fundamentul gener rii rezumatului

de baz . Aceste surse sunt detaliate în sect,iunea 2.3.2, pagina 29.

Sursele de informat,ie ontologic  reprezint  cunos

,tint

,ele de baz  ale sistemului.

Un exemplu bun de astfel de surs  este ontologia prezentat  în speci�cat,iile s

,abloanelor

28

Sumarizare automat  focalizat  temporal

MUC 43 � aceste ontologii acoper  toate valorile posibile ale majorit t,ii câmpurilor

din s,abloanele MUC. De exemplu, valoarea câmpului instrument_type este preluat 

dintr-o list  ierarhizat  prede�nit  de arme posibile. Aceste surse sunt detaliate însect

,iunea 2.3.3, pagina 31.

2.3.2 Reprezentarea informat,iei curente

Am folosit o schem  de reprezentare a articolelor de s,tiri bazat  pe s

,abloanele folosite

în sistemele MUC. Aceasta este exempli�cat  în �gura 2.4, pagina 31. Toate dateleextrase din articolele de s

,tiri sunt p strate într-o baz  de date de cunos

,tint

,e, marcat 

XML. Pentru a putea controla cont,inutul �s

,ierelor XML, am dezvoltat o de�nit

,ie a tipului

de document (DTD)4 s,i am asociat-o �s

,ierelor XML care cont

,in articolele. Aceasta este

descris  în �gura 2.3, pagina 30.

S,abloanele MUC clasi�c  informat

,ia semnatic  extras  din articole în cinci mari

grupuri semantice: message, incident, perp, phys_tgt s,i hum_tgt. Din aceleas

,i motive

invocate în lucrarea [Radev, 1999], la acestea cinci ad ug m înc  trei grupuri, prim_src,sec_src s

,i now. Procedând în acest fel, �ecare s

,tire este reprezentat  sub forma unei

ierarhii, as,a cum este evident

,iat în �gurile 2.5 � 2.8, pagina 32. Drept exemplu, s

,ablonul

prezentat în �gura 2.5, pagina 32, cont,ine cele opt grupuri semantice, unde �ecare

înseamn :

• message � meta-informat,ii despre s

,ablon, precum numele sistemului MUC care

l-a produs.

• incident � informat,iile principale despre eveniment (locat

,ie, tip, dat  etc.).

• perp � informat,ii despre r uf c tori (individul infractor sau organizat

,ia infrac-

toare).

• phys_tgt � informat,ii despre t

,intele �zice ale atacului (dac  se poate aplica),

precum tipul sau locat,ia lor.

• hum_tgt � informat,ii despre victimele omenes

,ti (dac  exist ) � nume, tip,

num r etc.

• prim_src � sursa primar  a articolului.

• sec_src � sursa secundar  a articolului.

• now � data s,i timpul curente.

3Message Understanding Conferece4Document Type De�nition

29

Claudiu Mih il 

<!ELEMENT templates (template+)>

<!ELEMENT template (message, incident, perp, phys-tgt, hum-tgt, prim-src, sec-src)>

<!ELEMENT message (id, number, salience)>

<!ELEMENT incident (date, time, location, type, stage-of-execution, instrument-id+,

instrument-type+)>

<!ELEMENT perp (incident-category, individual-id+, organization-id+,

organization-confidence+)>

<!ELEMENT phys-tgt (id+, type+, number+, foreign-nation, effect-of-incident+,

total-number)>

<!ELEMENT hum-tgt (name+, description+, type+, number+, foreign-nation+,

effect-of-incident+, total-number)>

<!ELEMENT prim-src (source, report, time, date)>

<!ELEMENT sec-src (source, report, time, date)>

<!ELEMENT date (#PCDATA)>

<!ELEMENT location (#PCDATA)>

<!ELEMENT type (#PCDATA)>

<!ELEMENT stage-of-execution (#PCDATA)>

<!ELEMENT instrument-id (#PCDATA)>

<!ELEMENT instrument-type (#PCDATA)>

<!ELEMENT incident-category (#PCDATA)>

<!ELEMENT individual-id (#PCDATA)>

<!ELEMENT organization-id (#PCDATA)>

<!ELEMENT organization-confidence (#PCDATA)>

<!ELEMENT id (#PCDATA)>

<!ELEMENT number (#PCDATA)>

<!ELEMENT foreign-nation (#PCDATA)>

<!ELEMENT effect-of-incident (#PCDATA)>

<!ELEMENT total-number (#PCDATA)>

<!ELEMENT name (#PCDATA)>

<!ELEMENT description (#PCDATA)>

<!ELEMENT source (#PCDATA)>

<!ELEMENT report (#PCDATA)>

<!ELEMENT time (#PCDATA)>

<!ELEMENT salience (#PCDATA)>

Figura 2.3: De�nit,ia tipului de document

Ultimele trei grupuri semantice nu fac parte din s,abloanele MUC originale, ci sunt

ad ugate în cadrul aplicat,iei dezvoltate pentru completare.

Toate valorile posibile pentru toate aceste câmpuri sunt descrise în instruct,iunile

MUC [MUC, 1997]. Deoarece au mai fost ad ugate alte trei grupuri, legate de sursele deinformat

,ie (prim_src s

,i sec_src) s

,i de data s

,i timpul curente (now), potent

,ialele valori

au fost stabilite de noi.

Cele dou  noi grupuri care prezint  informat,ii legate de sursele de informat

,ie sunt e-

sent,iale pentru descoperirea s

,i raportarea contradict

,iilor, deoarece nu de put

,ine ori exist 

con�icte de s,tiri. Pe de alt  parte, informat

,iile despre surs  redau s

,i nivelul de încredere

în raport, mai ales când unul se schimb  pe durata unui timp. De exemplu, dac  maimulte surse secundare raporteaz  aceleas

,i fapte despre acelas

,i eveniment, citând mai

multe surse primare, este mai probabil ca act,iunea s  se � întâmplat în modul raportat.

30

Sumarizare automat  focalizat  temporal

0. MESSAGE: ID (char)

1. MESSAGE: TEMPLATE (int)

2. INCIDENT: DATE (int)

3. INCIDENT: LOCATION (char)

4. INCIDENT: TYPE (char)

5. INCIDENT: STAGE OF EXECUTION (char)

6. INCIDENT: INSTRUMENT ID (char)

7. INCIDENT: INSTRUMENT TYPE (char)

8. PERP: INCIDENT CATEGORY (char)

9. PERP: INDIVIDUAL ID (char)

10. PERP: ORGANIZATION ID (char)

11. PERP: ORGANIZATION CONFIDENCE (char)

12. PHYS TGT: ID (char)

13. PHYS TGT: TYPE (char)

14. PHYS TGT: NUMBER (int)

15. PHYS TGT: FOREIGN NATION (char)

16. PHYS TGT: EFFECT OF INCIDENT (char)

17. PHYS TGT: TOTAL NUMBER (int)

18. HUM TGT: NAME (char)

19. HUM TGT: DESCRIPTION (char)

20. HUM TGT: TYPE (char)

21. HUM TGT: NUMBER (int)

22. HUM TGT: FOREIGN NATION (char)

23. HUM TGT: EFFECT OF INCIDENT (char)

24. HUM TGT: TOTAL NUMBER (int)

25. PRIM SRC: SOURCE (char)

26. PRIM SRC: REPORT (char)

27. PRIM SRC: TIME (char)

28. PRIM SRC: DATE (int)

29. PRIM SRC: DAY (char)

30. PRIM SRC: MONTH (char)

31. PRIM SRC: YEAR (int)

32. SEC SRC: SOURCE (char)

33. SEC SRC: REPORT (char)

34. SEC SRC: TIME (char)

35. SEC SRC: DATE (int)

36. SEC SRC: DAY (char)

37. SEC SRC: MONTH (char)

38. SEC SRC: YEAR (int)

39. INCIDENT: TIME (char)

40. INCIDENT: DAY (char)

41. INCIDENT: MONTH (char)

42. INCIDENT: YEAR (int)

43. NOW: TIME (char)

44. NOW: DATE (int)

45. NOW: DAY (char)

46. NOW: MONTH (char)

47. NOW: YEAR (int)

Figura 2.4: S,ablon MUC 4 gol, extins pentru a include s

,i informat

,ii despre data s

,i

timpul curente, preluat din [Radev, 1999]

Dac  în schimb exist  multe contradict,ii între rapoarte, este posibil c  adev rul s  nu �e

înc  total cunoscut.

31

Claudiu Mih il 

message messageincident incidentperp perpphys_tgt phys_tgthum_tgt hum_tgtprim_src prim_srcsec_src sec_srcnow now

Figura 2.5: Entitate de nivel maxim, incluzând toate cele opt sub-formate. Fiecare s

,tire

este reprezentat  în acest mod.

date

day 13month ”December”year 2004

location ”GazaStrip”type ”attack”stage_of_execution ”accomplished”instrument_id ””instrument_type ””

Figura 2.6: Entitate corespunzând sub-formatului incident.

incident_category ”terrorist act”individual_id ”urban guerillas”organization_id ”Nationalist Republican Alliance”organization_confidence ”suspected or accused : Nationalist Republican Alliance”

Figura 2.7: Entitate corespunzând sub-formatului perp.

id ”vehicle”type ”other : vehicle”number 1foreing_nation ””effect_of_incident ”destroyed : vehicle”total_number 1

Figura 2.8: Entitate corespunzând sub-formatului phys_tgt.

2.3.3 Reprezentarea informat,iei ontologice

Informat,ia ontologic  din domeniul terorismului internat

,ional este reprezentat  folo-

sind limbajele XML. Am utilizat relat,ii de tipul ISA pentru a descrie not

,iuni precum este

isa(gun, weapon). Exemplul 2.1, pagina 32 cont,ine un fragment de ontologie pentru

câmpul instrument-type al s,ablonului. Ontologiile ISA sunt utilizate pentru operatorul

32

Sumarizare automat  focalizat  temporal

de generalizare (sect,iunea 2.4).�

<define name="weapon" elements="gun, explosive"/>

<define name="gun" elements="mortar, machine gun"/>

<define name="explosive" elements="bomb, grenade"/>

<define name="bomb" elements="mine, vehicle bomb"/>� �Exemplul 2.1: Ontologia corespunz toare câmpului instrument-type.

2.4 Sumarizare multidocument

2.4.1 Introducere

Punctul central al sumariz rii multidocument este not,iunea de operator de plani�-

care. Un astfel de operator de plani�care are dou  roluri: identi�c  relat,iile logice între

formatele din mult,imea pe care lucreaz  s

,i asigur  c  textul generat este corect din punct

de vedere gramatical s,i c  acesta cont

,ine doar informat

,iile relevante. Astfel, operatorii

de plani�care lucreaz  atât la nivel conceptual, cât s,i la nivel lexical.

2.4.2 Idee de algoritm

Un operatorO este o pereche ordonat  (I,A), unde I reprezint  condit,ia init

,ial , iarA

reprezint  o act,iune. El este aplicat unei liste de formate L. Atunci când condit

,ia init

,ial 

I(L) este satisf cut , se creeaz  o nou  versiune a listei, L', construit  prin executareainstruct

,iunilor cont

,inute de act

,iunea A peste L. Altfel, în cazul în care condit

,ia nu este

îndeplinit , L r mâne neschimbat.

L'←

{A(L), dac  I(L) satisf cut L, altfel

(2.1)

Datorit  construct,iei modalit t

,ii de aplicare a operatorilor, sumarizarea multidocu-

ment poate � v zut  ca un pipeline de operatori aplicat,i asupra unei liste init

,iale de

formate. Ies,irea din acest pipeline reprezint  rezultatul L'.

L' = Ok(...O2(O1(L))) (2.2)

Distingem dou  tipuri de operatori: minimali s,i universali. Un operator minimal

este aplicat numai unei singure perechi de formate (x, y) din lista L pentru care condit,ia

I este satisf cut . De obicei, perechea aleas  este cea care are x minim (iar dac  exist mai multe perechi cu acelas

,i x minim, alegerea se face în funct

,ie de y). Spre deosebire

de acesta, un operator universal este aplicat tuturor perechilor de formate (x, y) dinlista L pentru care condit

,ia I este satisf cut .

33

Claudiu Mih il 

Exemple reale de utilizare a operatorilor identi�cat,i sunt incluse în sect

,iunile care

urmeaz .

2.4.3 Operator de plani�care generic

S  consider m un exemplu simplu de operator. Fie L o list  compus  din dou  formateMUC, numerotate 1 s

,i 2. Dorim s  compar m valorile câmpurilor template incident-day

din cele dou  formate. Dac  ziua din cel de-al doilea format este urm toarea dup  ziuadin primul format, vrem s  fort

, m utilizarea expresiei the next day sau a uneia echivalente

în cel de-al doilea format.

Pentru aceasta, impunem condit,ia de intrare I (prev {template incident-day} {tem-

plate incident-day}). Aceasta este evident satisf cut  dac  zilele în care au loc incidentelesunt consecutive.

În cazul în care condit,ia init

,ial  I este îndeplinit , atunci act

,iunea A asociat  acesteia

este efectuat . Pentru acest exemplu, act,iunea ce trebuie executat  este introducerea în

cel de-al doilea format a unei noi valori: câmpul {meta incident-day} primes,te valoarea

"on the next day".

Deoarece gramatica de generare a propozit,iilor consider  câmpurile "meta" ca având

o prioritate mai mare decât cele "template" omoloage, va genera "on the next day" înlocul zilei care ap rea la început în format.

2.4.4 Taxonomia operatorilor de plani�care

Pentru sumarizarea din mai multe documente, trebuie s  identi�c m diferent,ele de la

un articol de s,tiri la urm torul, pentru a evident

,ia cum se schimb  datele.

Init,ial avem o list  de formate L, asupra c reia aplic m consecutiv un num r de o-

peratori O1, O2, ..., On, pân  în momentul în care nu mai poate � aplicat nici un operator(sect

,iunea 2.4.5, pagina 37). La �ecare pas, pe baza similarit t

,ilor dintre formatele din

baza de date se alege un operator de sumarizare. Acesta este ulterior aplicat pe for-matele alese, rezultând un nou format care sintetizeaz  informat

,ia din cele vechi. Fiecare

operator este independent de cel lalt s,i mai mult

,i operatori pot � aplicat

,i succesiv pe

formatele de la intrare. Fiecare din cei s,ase operatori de baz  sunt divizat

,i pentru a

acoperi multitudinea de modi�c ri posibile.

Un operator de sumarizare stabiles,te leg turi între informat

,iile cont

,inute de dou  for-

mate diferite. Uneori, se poate forma o generalizare a dou  evenimente diferite. Alteori,sunt marcate deosebirile dintre dou  formate, ar tând evolut

,ia evenimentului.

În continuarea acestei sect,iuni descriem clasele de operatori care vor lucra pe formatele

de la intrare. Astfel, oferim o scurt  caracterizare a operatorului s,i un exemplu de rezumat

pentru �ecare.

34

Sumarizare automat  focalizat  temporal

2.4.4.1 Schimbarea perspectivei

Când s,tirea init

,ial  cont

,ine o informat

,ie gres

,it  sau aceasta nu este oferit  sub nici o

form , schimbarea este inclus  în rezumat. Pentru ca operatorul de schimbare a perspec-

tivei s  poat  � aplicat, câmpurile source ale formatelor trebuie s  aib  aceeas,i valoare,

în timp ce valorile unui alt câmp sunt diferite. De exemplu, dac  num rul de victimescade fat

,  de primul raport, consider m c  acela cont

,inea informat

,ii incorecte. Dar dac 

acest num r cres,te, spunem c  primul raport cont

,inea informat

,ii incomplete.

În exemplul de mai jos, estimarea init,ial  de cel put

,in 10 persoane decedate în explozie

devine cel put,in 12 persoane. Prin aceeas

,i modalitate se schimb  s

,i num rul de persoane

r nite.

description ”people”type civilian : ”people”number killed: 10

wounded: 30effect_of_incident death: 10

injury: 30sec_src_source "Reuters"

description ”people”type civilian : ”people”number killed: 12

wounded: 105effect_of_incident death: 12

injury: 105sec_src_source "Reuters"

Figura 2.9: Schimbarea sub-formatului hum_tgt datorat  operatorului de schimbare aperspectivei.

March 4th, Reuters reported that a bomb in Tel Aviv killed at least 10 people andwounded 30. Later the same day, Reuters reported that exactly 12 people were actuallykilled and 105 wounded.

Figura 2.10: Exemplu de schimbare a perspectivei

2.4.4.2 Contradict,ia

Când dou  surse distincte raporteaz  s,tiri care cont

,in informat

,ii în con�ict (de exem-

plu un num r diferit de victime sau un terorist diferit) apare o contradict,ie. În absent

,a

oric rui indicator de grad de încredere în surse, sistemul nu poate presupune care dinsurse prezint  adev rul, as

,a c  indic  faptul c  evenimentele înc  nu sunt clare.

Un rezumat provenit de la o surs  prezint  num rul de persoane decedate ca �ind 20,în timp ce o alt  surs  a�rm  c  num rul de persoane decedate este 10. Diferent

,a fat

de operatorul anterior, schimbarea perspectivei, o reprezint  sursa. Dac  anterior aceeas,i

surs  îs,i corecteaz  rezumatul init

,ial, în acest caz dou  surse diferite prezint  o variant 

proprie, �ecare ne�ind neap rat mai corect  decât cealalt . Putem astfel concluziona c ne confrunt m cu o contradict

,ie.

35

Claudiu Mih il 

description ”people”type civilian : ”people”number killed: 6-effect_of_incident death: 6-sec_src_source "Reuters"

description ”people”type civilian : ”people”number killed: 5effect_of_incident death: 5sec_src_source "Associated Press"

Figura 2.11: Contradict

,ia dintre câmpurile number.

The afternoon of February 26, 1993, Reuters reported that a suspected bomb killed atleast six people in the World Trade Center. However, Associated Press annouced thatexactly �ve people were killed in the blast.

Figura 2.12: Exemplu de contradict,ie

2.4.4.3 Elaborarea

Când un raport ulterior relateaz  aparit,ia unor informat

,ii noi (precum identitatea

atacatorilor sau num rul de victime), aceste informat,ii sut incluse în rezumat printr-o

elaborare asupra rezumatului vechi. Rezultatele adit,ionale pot avea loc dup  primul

raport sau pot � cunoscute atunci. Operatorul determin  acest caz prin felul în care seschimb  valorile formatelor. Dac  în cazul primului rezumat câmpul care se refer  laidentitatea atacatorilor era necompletat, iar în cel de-al doilea se speci�c  cine a comisatacul, se poate aplica operatorul de elaborare.

On Monday, a bomb in Tel Aviv killed at least 10 people and wounded 30 according toIsrael Radio. Later the same day, Reuters reported that the radical Muslim group Hamashas claimed responsibility for the act.

Figura 2.13: Exemplu de elaborare

2.4.4.4 Ra�narea

Nu de put,ine ori informat

,ia prezentat  init

,ial este ra�nat  în rapoartele ulterioare.

Dac  un atac este prezentat mai întâi ca având loc în Atena, ulterior se poate deter-mina cartierul în care s-a întâmplat evenimentul. Dac  se cunoas

,te în prim  faz  doar

nat,ionalitatea atacatorului, mai târziu poate � identi�cat individul prin a�area numelui.Acest operator difer  de operatorul de elaborare prin faptul c  în formatul init

,ial este

prezent  o informat,ie, iar în formatul posterior aceasta este înlocuit  cu o informat

,ie mai

exact , mai speci�c .

On Monday, Reuters announced that a suicide bomber killed at least 10 people in TelAviv. Later the same day, Reuters reported that Hamas claimed responsibility for theact.

Figura 2.14: Exemplu de ra�nare

36

Sumarizare automat  focalizat  temporal

2.4.4.5 Acordul

Dac  dou  surse diferite ofer  aceeas,i valoare pentru un câmp, acest fapt va cres

,te

gradul de încredere a utilizatorului în veridicitatea acestuia, s,i de aceea sistemul observ 

aceste cazuri s,i le red  în rezumat.

The morning of March 1st 1994, UPI reported that a man was kidnapped in Bronx.Later, this was con�rmed by Reuters.

Figura 2.15: Exemplu de acord

2.4.4.6 Agregarea

Dac  acelas,i eveniment este raportat de mai multe surse, �ecare cu informat

,ii incom-

plete, este posibil  combinarea informat,iei existente cu scopul de a produce un rezumat

cât mai complet. Acest operator este folosit s,i pentru agregarea mai multor evenimente,

dup  cum se observ  din exemplu.

Reuters reported that 18 people were killed in a Jerusalem bombing Sunday. The nextday, a bomb in Tel Aviv killed at least 10 people and wounded 30 according to IsraelRadio. A total of at least 28 people were killed in the two terrorist acts in Israel over thelast two days.

Figura 2.16: Exemplu de agregare

2.4.5 Algoritm pentru aplicarea operatorilor

În sect,iunea anterioar  am prezentat operatorii implementat

,i, iar în sect

,iunea 2.4.2 am

ment,ionat c , pentru a produce un rezumat, aces

,ti operatori trebuie aplicat

,i pe intrare.

Am ales un algoritm greedy pentru aceast  parte, descris în algoritmul 2.1, pagina 37.Acesta este adaptat, urmând linia general  din lucrarea [Radev, 1999].

Algoritmul 2.1 Aplicarea operatorilor de plani�care

sorteaz  lista L în ordine cronologic 

repeat

caut  în lista de operatori unul care se potrives,te cu elementele curente din L

if ∃ O operator then

aplic  act,iunea A a operatorului O lui L pentru a produce L'

endif

until nu mai pot fi aplicat,i operatori

trimite L' componentei lingvistice

Algoritmul utilizat poate � descris dup  cum urmeaz .

37

Claudiu Mih il 

2.4.5.1 Intrare

În acest pas, sistemul primes,te o list  de formate Message Understanding Confer-

ences, apart,inând unui anumit domeniu. Toate formatele sunt reprezentate ca liste de

perechi atribut�valoare. Aceste perechi sunt descrise în instruct,iunile MUC-4 s

,i au fost

exempli�cate anterior, în �gurile 2.4�2.8, de la paginile 31�32.

2.4.5.2 Combinare euristic 

Baza de date creat  din formatele primite la pasul anterior este scanat  pentru iden-ti�carea relat

,iilor relevante dintre valorile diferitelor atribute. Astfel de relat

,ii conduc

la reordonarea formatelor s,i la modi�carea gradului de important

,  asociat �ec ruia. De

asemenea, în urma aplic rii unei variat t,i de operatori, pot � create formate noi, având ca

fundament o pereche de formate existent  în baza de date. Drept exemplu, dac  asupraunei perechi de formate se aplic  operatorul de ra�nare, formatul nou obt

,inut va avea

gradul de important,  mai mare decât suma gradelor de important

,  ale formatelor vechi.

În acelas,i timp, gradele de important

,  ale formatelor de baz  sunt decrementate cu o

anumit  valoare (ment,inând îns  un grad de important

,  mai mare pentru cel de-al doilea

format, având în vedere c  este considerat �mai corect� decât primul).Valoarea gradului de important

,  a mesajului determin  pozit

,ia pe care acesta o va

avea în paragraful rezumat. Astfel, un mesaj cu gradul de important,  mai mare va �

generat printre primele, iar unul cu gradul de important,  mai mic va � generat printre

ultimele mesaje.Fiecare nou format cont

,ine informat

,ii care indic  utilitatea ulterioare a formatelor

sale constituente. Aceste pot deveni învechite s,i nu vor mai � folosite. De asemenea,

vectorul de acoperire (strucur  de date care ret,ine care formate au fost deja combinate s

,i

care mai sunt înc  disponibile pentru aplicarea operatorilor) este actualizat, astfel încâtacesta s  refere mesajele înc  active s

,i care pot � combinate în continuare. În acest fel,

se ofer  o s,ans  �ec rui format de a participa la crearea rezumatului.

2.4.5.3 Ordonarea formatelor s,i generarea lingvistic 

Pentru ca textul �nal s  �e produs, sistemul realizeaz  urm torii pas,i:

• Formatele sunt ordonate descresc tor dup  gradul de important,  asociat �ec ruia.

Numai primele formate din lista creat  vor � prelucrate s,i se vor reg si, în limbaj

natural, în rezumat. Mesajele cu un grad de important,  mai mare apar prioritar

într-un rezumat în cazul unei restrict,ii de lungime a rezumatului.

• Luate în ordine temporal  cresc toare, se decide ce fel de propozit,ie va � contruit 

pe baza formatului curent. Astfel, în funct,ie de relat

,ia cu propozit

,i anterioar , în

ceea ce prives,te sursa s

,i câmpurile care cont

,in informat

,ii despre incident, infractori,

38

Sumarizare automat  focalizat  temporal

t,inte, se stabiles

,te tipul propozit

,iei. În tabelul din �gura 2.17, pagina 41, sunt

descrise tipurile de propozit,ii utilizate.

2.5 Generarea limbajului natural

2.5.1 Introducere

Conform [Bateman, 1997], generarea de propozit,ii este procesul computat

,ional prin

care se produc automat propozit,ii într-un limbaj uman pe baza unei speci�cat

,ii sau

intent,ii de comunicare. O component  de generare a propozit

,iilor primes

,te ca intrare o

speci�cat,ie a ceea ce trebuie s  comunice s

,i produce la ies

,ire o expresie în limbaj natural

corespunz toare.

Generarea de limbaj natural este un subiect foarte amplu s,i un domeniu extrem de

discutat. Utilizând generarea de limbaj natural a fost posibil  crearea unei variet t,i de

diferite aplicat,ii practice, precum prognoze meteorologice, rapoarte ale bursei de act

,iuni,

reclame multilingve, rapoarte statistice etc.

Primul pas spre generarea limbajului natural este stabilirea unui scop comunicativ s,i

a unei reprezent ri structurate a informat,iei care se dores

,te a � comunicat  în limbaj na-

tural. Datele pot exista sub form  de tabele, s,abloane, concepte într-o baz  de cunos

,tint

,e

sau expresii logice care exprim  astfel de concepte.

În cele ce urmeaz  vom prezenta succint câteva metode de generare de limbaj natural,în sect

,iunea 2.5.2, pagina 39. Apoi vom descrie metoda aleas  pentru actualul sistem de

sumarizare, în sect,iunea 2.5.3, pagina 41.

2.5.2 Metode de generare a limbajului natural

În literatur  au fost propuse numeroase c i de realizare a limbajului natural având doarcâteva date ca intrare. În continuare sunt descrise succint trei dintre cele mai frecventemetode. Cea de-a patra metod  a fost aleas  pentru generarea limbajului natural pentrusistemul prezentat în aceast  lucrare s

,i este detaliat  în sect

,iunea 2.5.3, pagina 41.

Graph uni�cation tools

FUF5[FUF, 2000] este un interpretor scris în CommonLisp, pentru un limbaj bazatpe uni�care funct

,ional , dezvoltat special pentru aplicat

,ii de generare de text. SURGE6

este o gramatic  de generare de text în limba englez , scris  în FUF. FUF a fost dezvoltatde c tre Michael Elhadad, iar SURGE a fost dezvoltat de Michael Elhadad, împreun  cuJacques Robin.

5Functional Uni�cation Formalism6Syntactic Realization Grammar for Text Generation

39

Claudiu Mih il 

Unitatea de baz  a FUF este descrierea funct,ional  (FD7), care este utilizat  la de-

scrierea atât a intr rii, cât s,i ies

,irii unei gramatici. O FD este de�nit  ca o îns

,iruire

de perechi atribut-valoare, unde valoarea poate � un atom (o valoare lingvistic ), o cale(o leg tur  c tre o alt  sect

,iune a gramaticii) sau o alt  descriere funct

,ional . Dup 

ce se creeaz  o list  de astfel de descrieri, se adaug  constrângeri (de exemplu, pen-tru propozit

,iile secundare) s

,i sunt completate rolurile lexicale ale elementelor. Ulterior,

folosind gramatica SURGE, este generat textul în limbaj natural.

Exist  mai multe sisteme bazate pe combinat,ia FUF/SURGE, precum Summons

[Radev, 1999].

Gramatici sistemice funct,ionale

Gramaticile sistemice funct,ionale reprezint  un model de gramatici dezvoltate de

Michael Halliday înc  din anii 1960. Termenul "sistemic" se refer  la vizualizarea uneilimbi ca o ret

,ea de sisteme, sau mult

,imi interrelat

,ionate de opt

,iuni pentru a crea un

înt,eles. Termenul "funct

,ional" este folosit pentru a se indica faptul c  aceast  metod 

este interesat  de înt,eles.

Gramaticile sistemice funct,ionale se preocup  în principal cu alegerile care sunt dispo-

nibile vorbitorilor unei limbi de sistemele lor gramaticale. Înt,elesurile într-o gramatic 

sistemic  funct,ional  se împart în trei categorii, numite metafunct

,ii: ideat

,ional (gra-

matic  pentru reprezentarea lumii), interpersonal (gramatic  pentru descrierea relat,iilor

sociale) s,i textual (gramatic  pentru legarea elementelor lingvistice în texte, prin pronu-

minalizare, topic , tem  etc.).

Metoda gramaticilor sistemice funct,ionale a fost folosit  înc  din 1965 pentru gene-

rarea limbajului natural. Înc  de atunci s-au descris s,i construit numeroase sisteme de

sumarizare, pentru domenii foarte diferite, de la articole de s,tiri, pân  la statistici pentru

jocuri de X s,i 0. Unul dintre cele mai utilizate sisteme este KPML, descris în lucrarea

[Bateman, 1996].

Generator statistic

O alternativ  la generatoarele bazate pe gramatici o reprezint  generatoarele statistice,precum Nitrogren [Langkilde s

,i Knight, 1998]. Acest sistem utilizeaz  un num r de

reguli, al turi de lexicon, pentru a mapa reprezentarea semantic  a intr rii pe o mult,ime

de secvent,e posibile de cuvinte. Aceast  mult

,ime este reprezentat  ca o latice, o diagram 

cu tranzit,ii de st ri. Un generator de propozit

,ii bazat pe corpus va prelua laticea de

cuvinte s,i va genera propozit

,ia care are scorul cel mai bun, în funct

,ie de statisticile

corpusului. Atractiv  datorit  faptului c  nu necesit  dezvoltarea unei gramatici, pentruaceast  metod  este nevoie de antrenament pe un corpus. Totus

,i, acest tip de sistem

7Functional Description

40

Sumarizare automat  focalizat  temporal

permite generarea de propozit,ii chiar s

,i atunci când o parte din informat

,ia pentru intrare

lipses,te.

S,abloane de text

Pentru aceast  metod  se creeaz  o mult,ime de s

,abloane de propozit

,ii, parametrilor

s,abloanelor �indu-le atribuit  valoarea prin instant

,ierea intr rii. Aceast  metod  este

discutat  în am nunt în sect,iunea 2.5.3, pagina 41.

2.5.3 S,abloane de text

În �gura 2.17, pagina 41, sunt incluse câteva din s,abloanele propozit

,iilor utilizate

pentru generarea rezumatului. Acestea au fost construite folosind categoriile de propozi-t,ii identi�cate în rezumatele corpusului CSTI8, prezentate anterior, în �gura 2.2, pagina28.

Tipul propozit,iei S

,ablon

fapt On <date>, <source> reported that, in <location>,<perpetrator>, pertaining to <organization>,<stage-of-execution> <type-of-incident> tar-geting <physical-target>, where <human-target>

were found. This <incident-category> resulted in<effect-of-incident>.

elaborare On <date>, <source> speci�ed that ...contradict

,ie However, <source> informed that ...

acord <source> con�rmes these facts.

Figura 2.17: S,abloane de propozit

,ii

Pentru o mai mare diversitate, cuvintele �xate (care nu depind de sursele de infor-mat

,ie) sunt alese aleatoriu dintr-o list  de sinonime prede�nit . Astfel, am utilizat o

ontologie, descris  sub forma unui �s,ier marcat XML, în care speci�c m cuvintele sino-

nime. O parte a acestei ontologii este exempli�cat  în �gura 2.18, pagina 41.

Categorie Sinonime

change-view however, on the other handsame-day later, later the same day, later on, a few hours laternext-day the next day, one day after, the second dayreport reported, announced, speci�ed, informed, mentioned,

saidagree agrees with the fact, con�rmes

Figura 2.18: Tipuri de sinonime

8Chronology of Signi�cant Terrorist Incidents

41

Claudiu Mih il 

Deoarece s,abloanele sunt bazate pe existent

,a câtorva ontologii, sistemul poate � cu

us,urint

,  adaptat pentru orice limb .

42

Capitolul 3

Rezultate

3.1 Evaluare uman 

Scopul acestui sistem este de a vedea dac  sumarizarea multidocument focalizat temporal poate facilita într-adev r accesul mai rapid la o informat

,ie corect . As

,adar,

este necesar s  determin m performant,a metodei de sumarizare implementate. În aceast 

sect,iune evalu m metoda folosit  pentru producerea rezumatelor.

3.1.1 Organizare

Pentru a putea evalua sistemul de sumarizare prezentat pân  acum, am ales dincorpusul utilizat un num r de cinci subiecte. Aceste subiecte se refer  la incidente teroristeimportante care au avut loc în lume s

,i care au fost mediatizate intens de agent

,iile de s

,tiri.

În �gurile 3.1�3.5, de la paginile 43�44, sunt incluse rezumatele care au fost selectatepentru evaluare.

On February 2, Reuters reported that in Guatemala, Santo Tomas (farm), Guerilla Co-lumn, pertaining to Guatemalan National Revoluationary Unity, accomplished an attacktargeting Presidential Farm, where President Cerezo, and Civilian were found. Thisterrorist act resulted in the death of more Civilian.However, France-Press mentioned that this terrorist act resulted in the death of 10 Civi-lian, injury of Cerezo.The next day, Reuters reinformed that this terrorist act resulted in the death of 3 Civilian.

Figura 3.1: Rezumatul 1

On November 20, Reuters reported that, in El Salvador, unknown perpetrators, accom-plished an attack targeting Jesuits. This act resulted in death of more Jesuits.

Figura 3.2: Rezumatul 2

43

Claudiu Mih il 

On February 17, Reuters reported that, in El Salvador, San Salvador (city) , Members ofthe Farabundo Marti National Liberation Front, pertaining to Farabundo Marti NationalLiberation Front, accomplished an attack targeting Electric Power Substation, whereSoldier were found. This terrorist act resulted in injury of Soldier.

Figura 3.3: Rezumatul 3

On August 29, Reuters reported that, in Colombia, Antioquia (department), Man, andWoman, attempted a bombing targeting Antioquia Liqueur Plant, where People werefound. This terrorist act resulted in no human victims or they are not mentioned.

Figura 3.4: Rezumatul 4

On December 20, Reuters reported that, in Bolivia, La Paz (city), Unidenti�ed person,pertaining to Zarate Willka Armed Forces Of Liberation, accomplished a bombing tar-geting Embassy, Book store, People's Peruvian Bank, State Bank, Mariscal BallivianBuilding, and Shops. This terrorist act resulted in no human victims or they are notmentioned.

Figura 3.5: Rezumatul 5

Pentru a putea decide dac  sumarizarea multidocument focalizat  temporal produs de sistemul prezentat în aceast  lucrare faciliteaz  într-adev r accesul mai rapid la oinformat

,ie corect , am supus comparat

,iei un es

,antion format din cinci rezumate unor

judec tori umani. Am ales pentru aceasta dou  rezumate care au fost corect generate,unul de calitate medie s

,i dou  slabe din punct de vedere al informat

,iei selectate, al

coerent,ei s

,i coeziunii textului.

Evaluarea rezumatelor este o problem  care este în continu  dezbatere s,i cercetare în

domeniul sumariz rii automate. Judecata uman  nu este precis  în aceea ce prives,te un

rezumat bun, s,i de ceea evaluarea lor nu poate � automatizat  complet. Aceast  evaluare

este un proces foarte di�cil, datorit  faptului c  nu exist  numai un rezumat "perfect",ci o multitudine de rezumate la fel de acceptabile, din care sistemul trebuie s  produc unul. Totus

,i, des

,i oamenii nu pot c dea de acord asupra rezumatului care este mai bun,

este destul de probabil ca ei s  cad  de acord în ceea ce prives,te un rezumat care nu

este corect. Incoerent,a, gres

,elile gramaticale (sintactice s

,i semantice) s

,i redundant

,a sunt

identi�cate us,or de oameni, iar aceasta duce la o notare mai slab  a acestor rezumate.

Evaluarea manual  este o opt,iune viabil , care este înc  des utilizat , cu toate c  aceast 

metod  este consumatoare de timp s,i munc , deoarece este necesar ca oamenii s  citeasc 

nu numai rezultatul sumariz rii, dar s,i documentele surs .

Dintre metodele de sumarizare disponibile, am ales s  utiliz m o evaluare bazat  pecerint

,e, în care judec torii umani au fost nevoit

,i s  r spund  unor întreb ri cu r spuns

multiplu, pe baza textelor care le-au fost puse la dispozit,ie. La o parte dintre aceste

întreb ri se putea alege un r spuns de forma Da/Nu, în timp ce altele aveau mai multer spunsuri posibile. Pentru ambele tipuri de întreb ri a fost introdus  s

,i o variant  de

r spuns suplimentar , Nu s,tiu, pentru cazurile în care judec torii umani nu puteau decide

44

Sumarizare automat  focalizat  temporal

care este r spunsul corect pe baza rezumatului. Un exemplu de întrebare Da/Nu estecel din �gura 3.6, pagina 45, iar unul pentru întreb rile cu r spuns multiplu este cel din�gura 3.7, pagina 45.

Was president Cereso killed in the attack at the predisential farm in Santo Tomas,Guatemala?

• Yes

• No

• I don't know

Figura 3.6: Întrebare cu r spuns Da/Nu

What organization were the attackers who tried to kill Cerezo in Santo Tomas, Guatemalapart of?

• Al-Qaeda

• URNG

• IRA

• FMNLF

• I don't know

Figura 3.7: Întrebare cu r spuns multiplu

Calitatea rezumatelor a fost m surat  prin raportarea num rului de întreb ri la cares-a r spuns corect la num rul total de întreb ri adresate judec torilor.

Qi =qi,c

qi,a

(3.1)

unde Qi reprezint  calitatea rezumatului i, qi,c reprezint  num rul de întreb ri la care s-ar spuns corect pentru rezumatul i, iar qi,a num rul total de întreb ri asociate rezumatuluii.

Pe lâng  aceste cinci rezumate, au mai fost evaluate s,i rezumate realizate de oa-

meni s,i rezumate de referint

, . Pentru metoda rezumatelor de referint

,  am extras prima

propozit,ie din articolele surs  pân  când a fost atins  lungimea dorit . Am luat decizia

de a include s,i rezumate realizate prin aceast  modalitate bazându-ne pe faptul c , de

obicei, prima propozit,ie a articolelor de s

,tiri este cea care reprezint  un rezumat su�cient

de bun al textului.Rezumatele produse de oameni au fost create cu scopul de a stabili o limit  superioar 

a metodei de sumarizare descrise în aceast  lucrare. Din cauza lipsei de timp, în realizarea

45

Claudiu Mih il 

rezumatelor a fost utilizat  o manier  extractiv  (propozit,iile au fost extrase din text s

,i

concatenate, f r  a � alterate sau conectate în vreun fel de rezumatori). De asemenea,trebuie ment

,ionat c  rezumatele s

,i întreb rile pentru evaluare au fost produse de dou 

persoane diferite.

3.1.2 Evaluarea rezultatelor

Pentru evaluare, �ecarui din cei cinci judec tori i s-au oferit rezumatele s,i �ecare a

fost rugat s  r spund  întreb rilor pe baza lor. Mai mult, judec torii au fost rugat,i s 

r spund  întreb rilor numai pe baza rezumatelor s,i nu pe baza cunos

,tint

,elor anterioare

despre evenimentele în cauz . Rezultatele r spunsurilor sunt incluse în tabelul 3.1, pagina46.

Dup  cum se as,tepta, procentajele cele mai mari sunt cele pentru cazul rezumatelor

create de oameni, iar cele mai mici pentru cazul rezumatelor de baz . Spre surprindereanoastr , au existat cazuri în care rezumatele scrise de oameni au avut mai put

,ine r spun-

suri corecte decât cele create automat. Acest lucru se datoreaz  faptului c  persoanacare a creat rezumatul a considerat ca importante alte idei decât persoana care a creatîntreb rile.

Uman Baz  AutomatR1 80% 46% 64%R2 60% 30% 60%R3 56% 30% 66%R4 48% 22% 52%R5 64% 26% 34%

Media 62% 30% 55%

Tabela 3.1: Evaluarea rezumatelor de c tre judec tori umani

3.1.3 Evaluarea coerent,ei

Pe lâng  sarcina de a r spunde la întreb rile despre subiectele din sursele de infor-mat

,ie, �ecare din cei cinci judec tori a fost rugat s  acorde câte o not  pe o scar  de

la 1 la 5 (1 însemnând foarte slab, iar 5 foarte bun) �ec rui din cele cinci rezumate.Rezultatele, precum s

,i mediile notelor pentru �ecare rezumat, sunt prezentate în tabelul

3.2, pagina 47.Dup  cum se observ  din tabel, rezumatele create de oameni obt

,in procentajul cel mai

ridicat, des,i persoana care le-a creat nu a produs rezumate coerente în mod deliberat.

Explicat,ia pentru acest fapt este c  rezumatorul uman a ales o anumit  mult

,ime de

evenimente importante din grup s,i a selectat propozit

,iile legate de acel eveniment. În

acest fel, propozit,iile se leag  mult mai bine decât cele din cazul sumariz rii automate.

46

Sumarizare automat  focalizat  temporal

Uman Baz  AutomatR1 4 2 3,8R2 3,8 1,8 3,6R3 3,6 2,2 3,4R4 3,2 2 3R5 3,6 2 3,6

Media 3,64 2 3,48

Tabela 3.2: Evaluarea coerent,ei rezumatelor de c tre judec tori umani

Rezumatele de baz  au obt,inut din nou punctajul cel mai mic. Aceste rezultate sunt

similare celor din tabelul 3.1, pagina 46, as,a cum este ilustrat gra�c în imaginea 3.1,

pagina 47.

Imaginea 3.1: Corelat,ia evalu rilor

3.2 Evaluare automat 

ROUGE1, diponibil gratuit on-line2, este un pachet creat pentru evaluarea rezu-matelor s

,i a evalu rilor lor. Include mai multe metode care m soar  similaritatea dintre

rezumate:

• ROUGE-N � bazat  pe funct,ia recall pe n-grame

• ROUGE-L � bazat  pe subsecvent,a comun  maximal 

• ROUGE-W � extensie a ROUGE-L, în care subsecvent,ele primesc ponderi

1Recall-Oriented Understudy for Gisting Evaluation2http://berouge.com/

47

Claudiu Mih il 

• ROUGE-S � statistici de coocurent,e ale bigramelor neadiacente

Am utilizat pentru evaluare metoda ROUGE-N, care este funct,ia recall n-gram  dintre

rezumatul candidat s,i o mult

,ime de rezumate de referint

, . Conform [Lin, 2004], formula

de calcul a acestei m suri este

ROUGE −N =

∑S∈{ReferenceSummaries}

∑gramn∈S Countmatch(gramn)∑

S∈{ReferenceSummaries}∑

gramn∈S Count(gramn)(3.2)

unde n este lungimea n-gramei, gramn, iar Countmatch(gramn) este num rul maxim den-grame care apar atât în rezumatul candidat, cât s

,i în cele de referint

, .

Trebuie observat c  num rul de n-grame de la numitorul formulei 3.2 cres,te pe m -

sur  ce sunt ad ugate noi rezumate de referint, . Acest lucru este intuitiv s

,i rezonabil,

deoarece pot exista mai multe rezumate bune. De �ecare dat  când este ad ugat  o nou referint

,  în mult

,ime, se extinde spat

,iul de rezumate alternative. Prin controlarea tipului

de rezumate care sunt incluse în mult,imea de referint

, , se pot obt

,ine diferite evalu ri fo-

calizate pe aspecte distincte ale sumariz rii. De asemenea, num r torul însumeaz  pestetoate rezumatele de referint

, . Acest lucru ofer  mai mult  greutate n-gramelor care apar

în mai multe rezumate de referint, . As

,adar, un rezumat candidat care cont

,ine cuvinte

care sunt reg site în mai multe rezumate de referint,  este favorizat de m sura ROUGE-N.

Din nou, s,i acest lucru este intuitiv deoarece în general se prefer  un rezumat care este

cât mai similar cu toate cele de referint, .

În tabelul 3.3, pagina 48, sunt prezentate scorurile obt,inute folosind m sura ROUGE-

2 pentru cele cinci rezumate. Au fost comparate rezumatul obt,inut din sistemul actual

s,i rezumatul uman.

ROUGE-2R1 0,18R2 0,14R3 0,12R4 0,1R5 0,14

Media 0,136

Tabela 3.3: Scoruri ROUGE-2

48

Capitolul 4

Concluzii s, i perspective

În aceast  lucrare am prezentat un sistem de sumarizare automat  multi-document,care este focalizat pe modi�c rile suferite în timp de articolele de s

,tiri, pentru limba

englez . Acesta foloses,te abstract

,ia ca metod  de sumarizare, extr gând cuvintele sau

grupurile de cuvinte importante s,i reformulând, într-un mod foarte concis, ideea textului

init,ial.

Pentru a se putea ajunge la partea de sumarizare propriu-zis , este necesar  exe-cutarea unor operat

,iuni pe corpusul pe care se va lucra. Astfel, în texte trebuie marcate

propozit,iile s

,i p rt

,ile de vorbire ale cuvintelor sau grupurilor de cuvinte, trebuie rezolvate

construct,iile ambigue, produc toare de confuzie, precum referint

,ele anaforice, referint

,ele

inter-documente, expresiile temporale.

Folosind baza de date s,i metoda de adnotare a articolelor de s

,tiri ment

,ionat  în

speci�cat,iile Message Understanding Conference, sistemul poate produce rezumate prin

aplicarea de operatori precum schimbarea perspectivei, acordul sau generalizarea. Aces,ti

operatori modi�c  gradele de important,  asociate s

,abloanelor MUC, iar în acest fel se

stabiles,te o ierarhie a informat

,iilor care prezint  interes.

Generarea textului în limbaj natural a fost efectuat  prin utilizarea s,abloanelor de

text. Aceast  metod  este avantajoas  prin gradul de coerent,  crescut caracteristic

viitorului rezumat. Utilizarea ontologiilor de sinonime permite crearea de construct,ii

diverse, care scad stereotipia sumarelor.

Sistemul a fost evaluat cu ajutorul not rii a cinci rezumate de c tre cinci judec toriumani din punct de vedere al informat

,iei cont

,inute s

,i al coerent

,ei textelor obt

,inute.

Notele acordate de aces,tia arat  faptul c  sistemul produce sumare foarte similare celor

umane, selectând informat,ia interesant  s

,i formulând aproape corect gramatical propozi-

t,iile. De asemenea, utilizând sistemul de evaluare automat  a rezumatelor, ROUGE, aufost con�rmate concluziile evalu rii umane.

Urm torul pas în dezvoltarea sistemului prezentat poate � crearea de ontologii înlimba român , astfel încât s  poat  � extrase rezumate s

,i din articole de s

,tiri românes

,ti.

În mod evident, o expansiune a sistemului prin ad ugarea de ontologii în orice alte limbi

49

Claudiu Mih il 

este la fel de interesant .O alt  direct

,ie este cea a dezvolt rii unui sumarizator translingv. Datorit  gradului

de coerent,  ridicat al rezumatelor produse de acest sistem s

,i, de asemenea, complexit t

,ii

reduse a sintaxei frazelor utilizate, textele pot � traduse în alte limbi cu o acuratet,e mare,

dac  se foloses,te un sistem de traducere automat  performant.

Mai mult, se poate continua cu dezvoltarea de s,abloane corespunz toare altor domenii

decât cel al articolelor de s,tiri dedicate atacurilor teroriste. Sunt enumerate mai jos câteva

dintre posibilit t,ile de abordare viitoare:

• Domeniul legislativ � se pot crea rezumate în limbaj natural, în care s  se prezintelegile noi, legile abrogate sau modi�c rile aduse legilor existente.

• Domeniul sportiv � în rezumate se poate descrie evolut,ia unei echipe într-o anumit 

perioad  de timp, sau se pot descrie evenimentele desf s,urate pe parcursul unei

competit,ii.

• Domeniul �nanciar � cursul valutar sau tranzact,iile efectuate la bursa de va-

lori prezint  un interes major în prezent, as,adar un sumarizator poate furniza pe

scurt variat,iile suferite de anumite entit t

,i (moned , act

,iuni, obligat

,iuni, dobând ,

in�at,ie etc.).

• Domeniul medical � istoricul medical al unui pacient este de o foarte mare utilitatemedicilor în diagnosticarea s

,i tratarea bolilor în mod corect.

50

Mult,umiri

Mult,umim colegilor student

,i care au creat rezumate s

,i seturi de întreb ri, care au

acordat note celor cinci rezumate s,i celor care au r spuns chestionarului, ajutând astfel

la evaluarea �nal  a sistemului.De asemenea, suntem recunosc tori autorului sistemului de evaluare ROUGE, Chin-

Yew Lin, pentru permisiunea de a-i utiliza programul.[Cristea et al., 2005] [Marcu s

,i Gerber, 2001] [Marcu, 1997]

51

Bibliogra�e

[Bateman, 1996] John Bateman. KPML Development Environment: multilingual linguis-tic resource development and sentence generation. Raport tehnic, German NationalCenter for Information Technology (GMD), Institute for integrated publication andinformation systems (IPSI), Darmstadt, Germania, 1996.

[Bateman, 1997] John Bateman. Sentence generation and systemic grammar: an intro-duction, 1997.

[Cristea et al., 2005] Dan Cristea, Oana Postolache s,i Ionuµ Pistol. Summarisation

through Discourse Structure. În Alexander Gelbukh, editor, Computational Linguis-tics and Intelligent Text Processing, 6th International Conference CICLing, Mexic,februarie 2005.

[For scu s,i Ion, 2006] Corina For scu s

,i Radu Ion. TIMEBANK 1.2: O versiune adnotat 

în limba român . În Corina For scu, Dan Tu�³ s,i Dan Cristea, editori, Lucr rile

atelierului Resurse lingvistice ³i instrumente pentru prelucrarea limbii române, Ia³i,3 noiembrie 2006.

[FUF, 2000] Functional Uni�cation Formalism Interpreter, 2000,http://www.cs.bgu.ac.il/fuf/index.html vizitat la 10 iunie 2008.

[Halliday s,i Hasan, 1976] Michael Alexander Kirkwood Halliday s

,i Ruqaiya Hasan. Co-

hesion in English. Longman, Londra, 1976.

[Hovy s,i Lin, 1999] Eduard Hovy s

,i Chin-Yew Lin. Automated Text Summarization in

SUMMARIST. În Inderjeet Mani s,i Mike Maybury, editori, Advances in Automatic

Text Summarization, paginile 81�94. The MIT Press, 1999.

[Hovy, 2001] Eduard Hovy. Automated text summarisation. În Ruslan Mitkov, editor,Handbook of Computational Linguistics, Oxford, 2001.

[Langkilde s,i Knight, 1998] Irene Langkilde s

,i Kevin Knight. Generation that Exploits

Corpus-Based Statistical Knowledge. În Proceedings of the 36th Annual Meeting ofthe Association of Computational Linguistics and the 17th International Conferenceon Computational Linguistics (COLING-ACL'98), New Brunswick, New Jersey, 1998.Association of Computational Linguistics.

53

Claudiu Mih il 

[Lin, 2004] Chin-Yew Lin. ROUGE: A Package for Automatic Evaluation of Summaries.În Proceedings of Workshop on Text Summarization Branches Out, Post-ConferenceWorkshop of ACL 2004, Barcelona, Spania, 2004. Association of Computational Lin-guistics.

[Mani s,i Bloedorn, 1999] Inderjeet Mani s

,i Eric Bloedorn. Summarizing Similarities and

Di�erences Among Related Documents. Information Retrieval, 1(1-2):35�67, aprilie1999.

[Mani s,i Maybury, 1999] Inderjeet Mani s

,i Mark Maybury. Advances in Automatic Text

Summarization. MIT Press, Cambridge, Massachusetts, 1999.

[Mani et al., 2005] Inderjeet Mani, James Pustejovsky s,i Robert Gaizauskas. The Lan-

guage of Time: A Reader. Oxford University Press, mai 2005.

[Mani, 2001] Inderjeet Mani. Automatic Summarization. John Benjamins PublishingCompany, Amsterdam/Philadelphia, 2001.

[Marcu s,i Gerber, 2001] Daniel Marcu s

,i Laurie Gerber. An Inquiry into the Nature of

Multidocument Abstracts, Extracts and Their Evaluation. În Jade Goldstein s,i Chin-

Yew Lin, editori, Proceedings of the ANLP '01/NAACL '01 Workshop on AutomaticSummarization, Pittsburgh, Pennsylvania, SUA, iunie 2001. Association for Computa-tional Linguistics.

[Marcu, 1997] Daniel Marcu. From Discourse Structures to Text Summaries. În Proceed-ings of the ACL'97/EACL'97 Workshop on Intelligent Scalable Text Summarization,Madrid, 1997. Association for Computational Linguistics.

[Mitkov, 2002] Ruslan Mitkov. Anaphora Resolution. Longman, 2002.

[MUC, 1997] MUC 4. În Proceedings of the fourth Message Understanding Conference(MUC 4). DARPA Software and Intelligent Systems Technology, 1997.

[Or ³an s,i Chiorean, 2008] Constantin Or ³an s

,i Oana Andreea Chiorean. Evaluation

of a Cross-lingual Romanian-English Multi-document Summariser. În Proceedings ofthe 6th International Language Resources and Evaluation Conference 2008, Marrakech,Maroc, 26 mai � 1 iunie 2008. European Language Resources Association.

[Pinto Molina, 1995] María Pinto Molina. Documentary abstracting: Toward a method-ological model. Journal of the American Society for Information Science, 46(3):226�232, 1995.

[Pustejovsky et al., 2006] James Pustejovsky, Marc Verhagen, Roser Sauri, JessicaLittman, Robert Gaizauskas, Graham Katz, Inderjeet Mani, Robert Knippen s

,i Andrea

Setzer. TimeBank 1.2. Linguistic Data Consortium, Philadelphia, 2006.

54

Sumarizare automat  focalizat  temporal

[Radev et al., 2000] Dragomir Radev, Hongyan Jing s,i Malgorzata Budzikowska.

Centroid-Based Summarization of Multiple Documents: Sentence Extraction, Utility-Based Evaluation, and User Studies. În Proceedings of the Workshop on AutomaticSummarization at the 6th Applied Natural Language Processing Conference and the1st Conference of the North American Chapter of the Association for ComputationalLinguistics, Seattle, S.U.A., aprilie 2000.

[Radev et al., 2003] Dragomir Radev, Simone Teufel, Horacio Saggion, Wai Lam, JohnBlitzer, Hong Qi, Arda Çelebi, Danyu Liu s

,i Elliott Drabek. Evaluation challenges

in large-scale document summarization. Annual Meeting � Association for Computa-tional Linguistics, 41(1):375�382, aprilie 2003.

[Radev et al., 2004] Dragomir Radev, Timothy Allison, Sasha Blair-Goldensohn, JohnBlitzer, Arda Çelebi, Stanko Dimitrov, Elliott Drabek, Ali Hakim, Wai Lam, DanyuLiu, Jahna Otterbacher, Hong Qi, Horacio Saggion, Simone Teufel, Michael Topper,Adam Winkel s

,i Zhu Zhang. MEAD - a platform for multidocument multilingual text

summarization. În Language Resources and Evaluation Conference 2004, Lisabona,Portugalia, mai 2004.

[Radev, 1999] Dragomir Radev. Generating Natural Language Summaries from MultipleOn-Line Sources: Language Reuse and Regeneration. Tez  de doctorat, ColumbiaUniversity, 1999.

[Radev, 2000] Dragomir Radev. A common theory of information fusion from multipletext sources, step one: Cross-document structure. În Proceedings 1st ACL SIGDIALWorkshop on Discourse and Dialogue, New Jersey, 2000. Association for ComputationalLinguistics.

[Sekine, 2003] Satoshi Sekine. Sekine's Extended Named Entity Hierarchy, 27 februarie2003, http://nlp.cs.nyu.edu/ene/ vizitat la 10 iunie 2008.

[Spärck Jones, 2004] Karen Spärck Jones. A statistical interpretation of term speci�cityand its application in retrieval. Journal of Documentation, 60(5):493�502, 2004.

55


Recommended