LINCOR – Descrierea informa ţiilor lingvistice

Post on 15-Jan-2016

63 views 0 download

description

LINCOR – Descrierea informa ţiilor lingvistice. * SOFTWIN. Sec ţ iuni implicate. Morfologie Lexic Sintax ă Coresponden ţe. Configuratorul morfologic. Configuratorul morfologic. Descrie structura morfologică a unei limbi Organizat sub forma unui arbore atribut - valoare ( AVT ) - PowerPoint PPT Presentation

transcript

11.09.200911.09.2009 Page 1

LINCORLINCOR

LINCOR – Descrierea informaţiilor lingvistice

Felicia Codirlaşu* fcodirlasu@softwin.ro

*SOFTWIN

11.09.200911.09.2009 Page 2

LINCORLINCOR SecSecţţiuni implicateiuni implicate

Morfologie

Lexic

Sintaxă

Corespondenţe

11.09.200911.09.2009 Page 3

LINCORLINCOR

Configuratorul morfologic

Descrie structura morfologică a unei limbi

Organizat sub forma unui arbore atribut-valoare (AVT)

• nodurile “atribut”: categorii morfologice

• nodurile “valoare”: valori ale categoriilor morfologice

Alte tipuri de informaţii ataşate fiecărui nod:

• abrevierea

• categoria – flexionabilă sau nu

• forma este lemă sau nu

• forma este supliment sau nu

Configuratorul morfologicConfiguratorul morfologic......

11.09.200911.09.2009 Page 4

LINCORLINCOR ......Configuratorul morfologicConfiguratorul morfologic......

Arbore atribut-valoare (AVT)

clasa

substantiv

gen

masculin

feminin

neutru

singular

plural

singular

plural

număr

numărverb

neflexionabil

flexionabil

atribut

valoare

flexionabil

neflexionabil

11.09.200911.09.2009 Page 5

LINCORLINCOR ...Configuratorul Morfologic ...Configuratorul Morfologic [RO]…[RO]…

11.09.200911.09.2009 Page 6

LINCORLINCOR ...Configuratorul Morfologic ...Configuratorul Morfologic [EN][EN]

11.09.200911.09.2009 Page 7

LINCORLINCOR Configuratorul Morfologic Configuratorul Morfologic [RO]…[RO]…

Nume Număr situaţii de flexiune (EC)

Total atribute Total valoriAtribute

neflexionabile

Clasa 20179 854 2207 99

Clasa = Substantiv 360 10 30 3

Clasa = Articol 82 13 38 2

Clasa = Adjectiv 420 12 30 0

Clasa = Pronume 1.118 112 324 12

Clasa = Numeral 1.145 154 447 43

Clasa = Verb 16.944 507 1212 23

Clasa = Adverb 68 32 88 7

Clasa = Prepoziţie 3 1 4 1

Clasa= Conjuncţie 7 3 10 3

Clasa = Interjecţie 3 2 5 2

Clasa = Semn 1 1 6 1

Clasa = Morfem 6 6 13 1

Statistici Configurator Morfologic pentru limba română:

11.09.200911.09.2009 Page 8

LINCORLINCOR Configuratorul Morfologic Configuratorul Morfologic [EN]…[EN]…

Statistici Configurator Morfologic pentru limba engleză:

Nume Număr situaţii de flexiune (EC)

Total atribute

Total valori

Atribute neflexionabile

Part of speach 3551 534 1206 106

Part of speach = Noun 155 56 111 42

Part of speach = Article 3 3 6 1

Part of speach = Adjective 48 14 30 3

Part of speach = Pronoun 353 74 168 27

Part of speach = Numeral 12 5 12 2

Part of speach = Verb 2703 325 747 7

Part of speach = Adverb 265 52 116 19

Part of speach = Preposition 1 0 1 0

Part of speach = Conjunction 2 1 3 1

Part of speach = Interjection 1 0 1 0

Part of speach = Sign 5 1 6 1

Part of speach = Particle 3 2 5 2

11.09.200911.09.2009 Page 9

LINCORLINCOR

• NTPAR - N (neterminal) - simboluri care nu apar în

enunţuri şi se expandează conform regulilor

- T (terminal) - reprezintă un şir de caractere.

- P (pseudoterminal) - reprezintă o clasă

lexicală

- A (acţiuni procedurale)

- R (relaţie) – reprezintă relaţiile de coordonare

sau regenţă-subordonare descrise în arborele

de dependenţe.

SintaxaSintaxa

11.09.200911.09.2009 Page 10

LINCORLINCOR

Neterminal

AVT

Membrul stâng Membrul drept

Alternant

SintaxaSintaxa – reguli sintactice – reguli sintactice

Secţiune sintactică

Secţiune de dependenţe

NTPA AVT

Liste de relaţionare

Nume

Relaţie

Liste de relaţionare

Nume + tip (RS/RC)

AVT

Secţiune de acord

Condiţie de acord

Acţiuni

Regulă sintactică

11.09.200911.09.2009 Page 11

LINCORLINCOR• Simboluri folosite în regulile sintactice, care se vor regăsi în arborele

de dependenţe:

Sintaxa - Sintaxa - Arbori de dependenţe Arbori de dependenţe ((conventii conventii graficgraficee))

“...” Terminal (T)

#...# Acţiune procedurală (A)

Relaţie de Coordonare(RC)

2

@...@

1

@...@ Relaţie de Subordonare(RS)

<...> Neterminal (N)

%...% Pseudoterminal (P)

11.09.200911.09.2009 Page 12

LINCORLINCOR

% substantiv %

@coordonare logica@

1 2

% substantiv %

% verb %

@compl - regent verb@

"şi"

@subordonare particula logica@

Sintaxa - Sintaxa - Arbori de dependenţe Arbori de dependenţe ((reprezentare reprezentare grafică)grafică)

11.09.200911.09.2009 Page 13

LINCORLINCOR LexiconulLexiconul

Un LEXICON GRAALAN este o structură de date ce conţine trei tipuri de intrări:

a) Intrări de tip lexical;b) Intrări de tip morfologic;c) Intrări de tip procedural.

• În acest proiect ne-am ocupat de un subtip al intrărilor de tip lexical - intrările de tip expresii multicuvânt (MWE - Multi Word Expression).

11.09.200911.09.2009 Page 14

LINCORLINCOR

Intrările de tip multicuvânt (MWE) - similare cu intrările de tip “lemma” + o secţiune morfo-sintactică.

Tipuri de intrări MWE: - locuţiuni - expresii - cuvinte compuse (alăturare – cu sau fără cratimă) - alte îmbinări fixe de cuvinte.

=> cuvântul “expresie” are o accepţiune mai largă decât cea tradiţională.

MWE...MWE...

11.09.200911.09.2009 Page 15

LINCORLINCOR ......MWEMWE......

Multiword entry (MWE)

Text (normal şi fonetic)

Semantică (sensuri, relaţii semantice, exemple...)

Arbore de dependenţe

Secţiune sintactică

Neterminal AVT+ + Listă de relaţionare

Secţiune de dependenţe

Relaţie RS/RC AVT+ + Listă de relaţionare

11.09.200911.09.2009 Page 16

LINCORLINCOREntry_001: Entry multiword Text “a avea pâinea şi cuţitul" Phonetic "ˈˈa ave� ˈa pˈɨjne�a ʃˈi kuʦˈitul" Meaning “A avea la îndemână toată puterea, toate mijlocele.”Syntax T1:"a avea" partial variable

[clasa = verb] [conjugarea = II] [tranzitivitate = tranzitiv] [diateza = activa] Governor R1

T2:“pâine" invariable [clasa = substantiv] [numar = singular] [caz = acuzativ] [articulare = articol hotarat] Coordinate R2 (1)

T3:“şi” invariable [clasa = conjuncţie]

Subordinate R3 T4:“cuţit" invariable [clasa = substantiv] [numar = singular] [caz = acuzativ] [articulare = articol hotarat]

Coordinate R2 (2) Dependency R1:@complement – regent verb@() R2:@coordonare logica@ (2) Subordinatte R1, Governor R3 R3:@subordonare particula logica@()

......MWE – Text GRAALANMWE – Text GRAALAN......

11.09.200911.09.2009 Page 17

LINCORLINCOR ...MWE –...MWE –Editare prin aplicaţia LKT... Editare prin aplicaţia LKT...

Text expresie

Cuvânt de sortare

Sens expresie

11.09.200911.09.2009 Page 18

LINCORLINCOR ... MWE –... MWE –Editare prin apEditare prin apiilcaţia LKT lcaţia LKT ......

11.09.200911.09.2009 Page 19

LINCORLINCORProprietăţile terminalilor - infomaţii lexicale, semantice şi morfologice

a) Text/lema

b) Meaning

c) Variability - invariable - un

cuvânt la o singură formă de flexiune

- partial variable -acelaşi cuvânt, având diverse forme de flexiune.

- total variable -orice cuvânt care corespunde clase lexicale din AVT

d) AVT

...MWE - ...MWE - Structură...Structură...

11.09.200911.09.2009 Page 20

LINCORLINCOR• Arborele de dependenţe - schema sintactică a expresiei +

informaţii suplimentare de natură lexicală şi morfologică.

“a avea pâinea şi cuţitul”

... MWE - ... MWE - ArborArboree de dependenţe de dependenţe ((reprezentare graficăreprezentare grafică))......

11.09.200911.09.2009 Page 21

LINCORLINCOR CorespondenCorespondenţe bilingveţe bilingve......

Lexicon limba 1Expresie

...Text...Cuvânt de sortare...Arbore de dependenţe Legătura terminalilor cu tokenii Caracterizare morfologică terminali Desen arbore sintactic

Aplicaţie creare corespondenţe bilingve

Corespondenţe Bilingve

Lexicon limba 2Expresie

...Text...Cuvânt de sortare...Arbore de dependenţe Legătura terminalilor cu tokenii Caracterizare morfologică terminali Desen arbore sintactic

Lema...

Text...Structură...

Lema...

Text...Structură...

11.09.200911.09.2009 Page 22

LINCORLINCOR

Corespondenţele bilingve se stabilesc între intrările lexicoanelor a două limbi şi pot fi:

a) Corespondenţe lexicale;

b) Corespondenţe morfologice;

c) Corespondenţe între acţiuni procedurale.

Aplicaţia utilizată în proiect tratează corespondenţele lexicale.

...Coresponden...Corespondenţe bilingveţe bilingve

11.09.200911.09.2009 Page 23

LINCORLINCOR CorespondenCorespondenţe lexicaleţe lexicale......

Tipuri de corespondenţe lexicale- expresie – expresie: Ex: a duce cu zăhărelul - to hand somebody a lemon

- expresie – lemă: Ex: idee fixă - obsession

- expresie – traducere: Ex: a ieşi în relief - to be prominent

11.09.200911.09.2009 Page 24

LINCORLINCOR ...Coresponden...Corespondenţe lexicaleţe lexicale......

În descrierea unei corespondeţe se pot folosi clauze de:

a) mapare

b) transfer

c) combinare

11.09.200911.09.2009 Page 25

LINCORLINCOR ...Corespondente lexicale - mapare...Corespondente lexicale - mapare

Mapare:

- TPA sunt relativ echivalenţi în cele două expresii, şi

- TPA din expresie din limba ţintă va prelua toate legăturile (cu descendenţele respective) din extensia expresiei corespunzătoare TPA din expresie din limba sursă.

11.09.200911.09.2009 Page 26

LINCORLINCOR

a înduioşa

pe

@complement - regent verb@

@complement - regent verb@

până

to move

somebody

@verb – complement@

@verb – adverbial@

to

cineva

@prep-nominal@

la

lacrimi

@prep-nominal@

@prep-grup prepozitional@

tears

@prep phrase – complement@

“a înduioşa pe cineva până la lacrimi” “to move somebody to tears”

Exemplu - Mapare Exemplu - Mapare

11.09.200911.09.2009 Page 27

LINCORLINCOR

Transfer:

- TPA nu sunt echivalenţi în cele două expresii, iar..

- Legăturile din extensia expresiei corespunzătoare nodului din expresie din limba sursă, cu toate descendenţele lor, vor fi preluate de nodul din expresie din limba ţintă .

...Corespondente lexicale - transfer...Corespondente lexicale - transfer

11.09.200911.09.2009 Page 28

LINCORLINCOR Exemplu - TransferExemplu - Transfer

“a da relaţii” “to give information”

a da

relaţii

@complement- regent verb@

to give

information

@verb – complement@

11.09.200911.09.2009 Page 29

LINCORLINCOR

Combinare:

- Prin combinare se indică modul prin care echivalenţii în limba ţintă, ai eventualilor subordonaţi din extensia expresiei sursă se vor coordona cu subordonaţii deja existenţi în expresia ţintă.

! Se poate defini o combinare doar pentru acei terminali din ţintă care au deja definită o clauză de mapare sau transfer.

...Corespondente lexicale - combinare...Corespondente lexicale - combinare

11.09.200911.09.2009 Page 30

LINCORLINCOR Combinare – ExempluCombinare – Exemplu

@compl - regent verb@

E1: a face

E2: cuiva

@compl - regent verb@

E3: o figură

@atribut - regent@

E4: urâtă

@verb - complement@

E1: to play

E4: on

@verb - complement@

E2: trick

@premodifier – noun phrase@

E3: dirty

@prep phrase – complement@

E5:somebody

“a face cuiva o figură urâtă” “to play a dirty trick on somebody”

combination E2 @coordinate relation@

11.09.200911.09.2009 Page 31

LINCORLINCOR Combinare – ExempluCombinare – Exemplu

Expresia sursă

@compl - regent verb@

a face

cuiva

@compl - regent verb@

o figură

@atribut - regent@

urâtă

@atribut - regent@

neaşteptată

Extensie expresia sursă

Expresia ţintă

@verb - complement@

to play

on

@verb - complement@

a trick

@premodifier – noun phrase@

dirty

@prep phrase – complement@

somebody

“a face cuiva o neaşteptată figură urâtă” + “to play a dirty trick on somebody”

11.09.200911.09.2009 Page 32

LINCORLINCOR Combinare – ExempluCombinare – Exemplu

@compl - regent verb@

to play

@compl - regent verb@

a trick

@premodifier – noun phrase@

dirty

@logical coordination@

unexpected

1 2

on

@prep phrase – complement@

somebody

Expresia ţintă rezultantă

“to play a dirty and unexpected trick on somebody”

11.09.200911.09.2009 Page 33

LINCORLINCOR ...Coresponden...Corespondenţe lexicale ţe lexicale – Statistici – Statistici peste 1000 expresii din ROpeste 1000 expresii din RO

Tip corespondenţe Număr

Număr total corespondenţe 4404

Număr total corespondenţe RO - EN 2202

Expresie RO – expresie EN 1727

Expresie RO – lemă EN 307

Expresie RO – traducere EN 177

Clauze de mapare 764

Clauze de transfer 1225

11.09.200911.09.2009 Page 34

LINCORLINCOR

• Q&A