+ All Categories
Home > Documents > Descrierea limbii rom â ne în GRAALAN

Descrierea limbii rom â ne în GRAALAN

Date post: 05-Feb-2016
Category:
Upload: leann
View: 23 times
Download: 0 times
Share this document with a friend
Description:
Descrierea limbii rom â ne în GRAALAN. * SOFTWIN. 1. GRAALAN. Sistemul GRAALAN se bazează pe Generative Dependency Grammars (GDG) – Gramatici Generative de Dependenţe . Acest tip de gramatici utilizează arbori de dependenţe ( dependency trees - DT ) şi un proces generat iv . - PowerPoint PPT Presentation
38
PALIROM PALIROM Descrierea limbii române în GRAALAN Felicia Carmen Codirlaşu* fcodirla s u @softwin.ro Oana-Adriana Bulibaşa* obulibasa @softwin.ro *SOFTWIN
Transcript

PALIROMPALIROM

Descrierea limbii române în GRAALAN

Felicia Carmen Codirlaşu* [email protected]

Oana-Adriana Bulibaşa* [email protected]

*SOFTWIN

11 septembrie 2009

Page 2

PALIROMPALIROMSistemul GRAALAN

Sistemul GRAALAN se bazează pe Generative Dependency Grammars (GDG) – Gramatici Generative de Dependenţe. Acest tip de gramatici utilizează arbori de dependenţe (dependency trees - DT) şi un proces generativ.

Principiile acestor tipuri de gramatici sunt implementate în limbajul dedicat, GRAALAN, care este un limbaj declarativ folosit pentru a descrie cunoştinţele lingvistice.

Descrierea gramaticii unei limbi în GRAALAN se bazează pe GDG şi AVT (Attribute Value Tree – un tip de arbori folosit pentru a descrie morfologia limbilor naturale).

1.1. GRAALANGRAALAN

11 septembrie 2009

Page 3

PALIROMPALIROM

Alfabetul

Defineşte toate simbolurile folosite într-o limbă

• alfabet normal

• caractere fonetice

• simboluri speciale

• caractere pentru accent

Defineşte structura alfabetului unei limbi şi relaţiile dintre tipurile de simboluri

grupuri

clase

2.2.11. . Secţiuni Secţiuni GRAALAN - GRAALAN - AlfabetulAlfabetul

11 septembrie 2009

Page 4

PALIROMPALIROMTipuri de semne Nr.

semneExemple din alfabetul limbii române

Alfabet normal 66 A - character code = "A“ type = internal label = A order key = 2.1

Caractere fonetice 36 ə - character code = "ə“ type = internal label = mid_central_unrounded stressed = yes order key = 1.1

Caractere speciale 64 “-” - character code = "‐“ type = internal label = hyphen special function = connector order key = 3.39

Accente 2 ˈ - stress code = "ˈ“ type = primary label = primary_stress order key = 4.0

Grupuri 360 iou - group code = (("iI"/"oO"/"uU") [("&semivowel_i;&mid_back_rounded;&semivowel_u;")])

label = triphthong_iou

Clase 17 A, Ă, Â, B, C, D, E… - class label = capital_letter

elements = ("A", "Ă", "Â", "B", "C", "D", "E", "F", "G", "H", "I", "Î", "J", "K", "L", "M", "N", "O", "P", "Q", "R", "S", "Ş", "T", "Ţ", "U", "V", "W", "X", "Z")

2.2.11. . Secţiuni Secţiuni GRAALAN – GRAALAN – AlfabetulAlfabetul limbii limbii romromâneâne

11 septembrie 2009

Page 5

PALIROMPALIROM

Configuratorul morfologic

Descrie structura morfologică a unei limbi

Organizat sub forma unui arbore atribut-valoare (AVT)

• nodurile “atribut”: categorii morfologice

• nodurile “valoare”: valori ale categoriilor morfologice

Alte tipuri de informaţii ataşate fiecărui nod:

• abrevierea

• categoria – flexionabilă sau nu

• forma este lemă sau nu

• forma este supliment sau nu

22..22 Secţiuni Secţiuni GRAALAN – GRAALAN – Configuratorul MorfologicConfiguratorul Morfologic

11 septembrie 2009

Page 6

PALIROMPALIROM

clasa

substantiv

gen

masculin

feminin

neutru

singular

plural

singular

plural

număr

numărverb

22..22 Secţiuni Secţiuni GRAALAN – GRAALAN – Configuratorul Morfologic al Configuratorul Morfologic al limbii românelimbii române

11 septembrie 2009

Page 7

PALIROMPALIROMTree

[clasa / name = Clasa, abbreviation = Cls, inflection = no / = substantiv / name = Substantiv, abbreviation = Subst, lemma = yes, lexicon = input / [tip substantiv / name = TipSubstantiv, abbreviation = TipSubst, inflection = no / = comun / name = Comun, abbreviation = Com, lemma = yes, lexicon = input / , propriu / name = Propriu, abbreviation = Pr, lemma = yes, lexicon = input / ] [animatie / name = Animatie, abbreviation = Animat, inflection = no / = animat / name = Animat, abbreviation = Anim, lemma = yes, lexicon = input /

, inanimat / name = Inanimat, abbreviation = Inanim, lemma = yes, lexicon = input / ] ………

2.2.22 Secţiuni Secţiuni GRAALAN – GRAALAN – Configuratorul Morfologic al Configuratorul Morfologic al limbii românelimbii române

11 septembrie 2009

Page 8

PALIROMPALIROM

Nume Total atributeAtribute

neflexionabileTotal valori

Clasa 833 98 2.159

Clasa = Substantiv 10 3 30

Clasa = Articol 13 2 38

Clasa = Adjectiv 12 0 30

Clasa = Pronume 112 12 324

Clasa = Numeral 154 43 447

Clasa = Verb 492 23 1.177

Clasa = Adverb 32 7 88

Clasa = Prepoziţie 1 1 4

Clasa = Conjuncţie 3 3 10

Clasa = Interjecţie 2 2 5

Statistici Configurator Morfologic pentru Limba Română:

22..22 Secţiuni Secţiuni GRAALAN – GRAALAN – Configuratorul Morfologic al Configuratorul Morfologic al limbii românelimbii române

11 septembrie 2009

Page 9

PALIROMPALIROM

NumeNumăr situaţii de

flexiune (EC) Nr. maxim perechi

atribut-valoareNume de atribute

Nume de valori

Clasa 19.930 19 71 217

Clasa = Substantiv 360 7 7 21

Clasa = Articol 82 5 4 15

Clasa = Adjectiv 420 8 9 21

Clasa = Pronume 1.118 9 13 45

Clasa = Numeral 1.124 9 19 63

Clasa = Verb 16.740 18 27 77

Clasa = Adverb 68 7 11 31

Clasa = Prepoziţie 3 2 1 4

Clasa = Conjuncţie 7 3 3 10

Clasa = Interjecţie 3 3 2 5

Statistici Configurator Morfologic pentru Limba Română:

22..22 Secţiuni Secţiuni GRAALAN – GRAALAN – Configuratorul Morfologic al Configuratorul Morfologic al limbii românelimbii române

11 septembrie 2009

Page 10

PALIROMPALIROM

Lexiconul

Conţine cuvinte, expresii şi structuri lexicale/ morfologice/ sintactice

Tipuri de intrări:

• cuvinte – lema (supliment, formă de cuvânt)

• morfeme (prefixe, sufixe, etc.)

• expresii formate din mai multe cuvinte

• structuri morfologice analitice şi sintetice

22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – LexiconulLexiconul

11 septembrie 2009

Page 11

PALIROMPALIROMLema este un tip de intrare care are ataşate atât informaţii

semantice, cât şi de natură morfologică:

Lexicon

Listă situaţii de flexiunelema

supliment 2

Situaţia de flexiune

Situaţia de flexiune

supliment 3

22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – LexiconulLexiconul

11 septembrie 2009

Page 12

PALIROMPALIROMEntry00017711: Entry word lemma Text "cântec" Phonetic "kˈɨntek" Syllabification Euphonic "cân/tec" Phonetic "kˈɨ/ntek" Gloss "Şir armonios de sunete emise cu vocea sau cu un instrument" Morphology Inflection situation SubstTipComunInaniNeutrNomSg Inflection rule Flex_SubstNeutru Supplement Text "cântece" Phonetic "kˈɨnteʧe" Number 2 Syllabification Euphonic "cân/te/ce" Phonetic "kˈɨ/nte/ʧe" Morphology Inflection situation SubstTipComunInaniNeutrNomPl Markers xend of entry

22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – Lexiconul limbii româneLexiconul limbii române

11 septembrie 2009

Page 13

PALIROMPALIROM 22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – LexiconulLexiconul

Multiword entry (MWE)

Text (normal şi fonetic)

Semantică (sensuri, relaţii semantice, exemple...)

Arbore de dependenţe

Secţiune sintactică

Neterminal AVT+ + Listă de relaţionare

Secţiune de dependenţe

Relaţie RS/RC AVT+ + Listă de relaţionare

11 septembrie 2009

Page 14

PALIROMPALIROM

Entry_83: Entry multiwordText "a ridica vocea"Phonetic “’a ridik’a v’oʧa“Syntax T1:"a ridica" partial variable [clasa = verb] [conjugarea = I] [personal sau impersonal =

personal] [reflexivitate = nereflexiv] [predicativitate = predicativ]

[tranzitivitate = tranzitiv] [diateza = activa, pasiva [forma pasiva = pasiv reflexiv] ] Subordonate R1 ...

...

T2:"voce" invariable [clasa = subtantiv] [tip substantiv = comun] [animatie = inanimat] [gen = feminin] [numar = singular] [caz = acuzativ] [articulare = hotarat] Subordonate R1 Dependency R1:@vb-

complement@()

22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – Lexiconul limbii româneLexiconul limbii române

11 septembrie 2009

Page 15

PALIROMPALIROM

• Exemplu arbore de dependenţe

22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – Lexiconul limbii româneLexiconul limbii române

a ridica

vb-complement

- parţial variabil

- relaţie de subordonare

- invariabil voce

11 septembrie 2009

Page 16

PALIROMPALIROM

76.337 de leme

• 66.504 de leme formate dintr-un singur cuvânt• 9.833 de leme formate din mai multe cuvinte

106.560 de suplimente

12.778 de expresii.

22..33 Secţiuni Secţiuni GRAALAN – GRAALAN – Lexiconul limbii româneLexiconul limbii române

11 septembrie 2009

Page 17

PALIROMPALIROM

Regulile de silabisire

Set de reguli de despărţire în silabe a cuvintelor pentru forma scrisă (alfabet normal) şi vorbită (alfabet fonetic).

Tipuri de silabisire:

• silabisire eufonică

• silabisire fonetică

• silabisire morfologică

22..44 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de silabisireRegulile de silabisire

11 septembrie 2009

Page 18

PALIROMPALIROM

Euphonic Rule "&vowel;" - "&semivowel;" + "&vowel;";

Phonetic Rule "&phon_vowel; " + "&phon_semivowel;" - "&phon_semivowel;" + "&phon_semivowel;" + "&phon_vowel;"

Notă: &vowel; sau &semivowel; sunt etichete care referenţiază entităţi din secţiunea alfabet, cum ar fi caractere alfabetice şi fonetice, grupuri sau clase.

22..44 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de silabisire ale Regulile de silabisire ale limbii românelimbii române

•723 de reguli de silabisire eufonică

•723 de reguli de silabisire fonetică

11 septembrie 2009

Page 19

PALIROMPALIROM

Regulile de flexiune

Conţin acţiunile folosite pentru a genera formele flexionate

Tipuri de reguli de flexiune:

• reguli simple: formate dintr-un AVT şi o regulă de transformare elementară ataşată fiecărei frunze a AVT-ului

• reguli compuse: fiecare cuprinde o listă de reguli simple

22..55 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de flexiuneRegulile de flexiune

11 septembrie 2009

Page 20

PALIROMPALIROM

Secvenţă de transformări alfabet fonetic

Lexicon

Lemă

Inflection rules

Regulă compusă

Regulă de flexiune simplă

AVT

Formă de flexiune referinţăCondiţieSecvenţă de transformări alfabet normal

DT / AVT (forme analitice)

Variant

22..55 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de flexiuneRegulile de flexiune

11 septembrie 2009

Page 21

PALIROMPALIROMBasic Rule Vb_indicativ1:[clasa = verb][conjugarea = a treia] [...][tranzitivitate = tranzitiv, intranzitiv][diateza = activa] [mod = indicativ] [timp = prezent [afirmativ sau negativ = afirmativ [numar = singular [persoana = intai (EtV20: on lemma 3 alphabetic insert word left "am" [clasa = verb] [conjugarea = a doua] [predicativitate = nepredicativ] [tip nepredicativ = auxiliar] [numar = singular] [persoana = intai] reference Aux02 @aux-vb@ phonetic insert word left "&primary_stress;&open_central_unrounded;&bilabial_nasal;" , a doua … , a treia…] , plural …] ]

22..55 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de flexiune ale Regulile de flexiune ale limbii românelimbii române

11 septembrie 2009

Page 22

PALIROMPALIROMBasic Rule Subst_masc1:[clasa = substantiv][tip substantiv = comun][animatie = animat, inanimat][gen = masculin][numar = singular [caz = nominativ [articulare = nearticulat (EtL1: alphabetic - phonetic -) , hotarat (EtS11:

/* ultima literă este consoană - băiat, elev */ if(&consonant;) alphabetic insert "ul“

phonetic insert "&close_back_rounded;&alveolar_lateral_approximant;“

/* ultima literă este “e" – frate, câine*/ if("e") alphabetic insert "le" phonetic insert "&alveolar_lateral_approximant;&mid_front_unrounded;" … ] , genitiv … , dativ … , acuzativ …] , plural …] ]

22..55 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de flexiune ale Regulile de flexiune ale limbii românelimbii române

11 septembrie 2009

Page 23

PALIROMPALIROM

Situaţii de flexiune (EC) care au reguli de flexiune: 19.202 Situaţii de flexiune (EC) care nu au reguli de flexiune : 260 Varianţi: 28.317 Varianţi multicuvânt: 19.935 Varianţi monocuvânt : 8.382 Varianţi multicuvânt cu 2 cuvinte (am citit): 7.785 Varianţi multicuvânt cu 3 cuvinte (nu va merge): 6.554 Varianţi multicuvânt cu 4 cuvinte (are să se abată):

3.196 Varianţi multicuvânt cu 5 cuvinte (nu are să se abată): 1.908

Varianţi multicuvânt cu 6 cuvinte (nu s-ar fi abătut): 492.

Statistici Reguli de Flexiune Limba Română:

22..55 Secţiuni Secţiuni GRAALAN – GRAALAN – Regulile de flexiune ale Regulile de flexiune ale limbii românelimbii române

11 septembrie 2009

Page 24

PALIROMPALIROMForme flexionate

Formele flexionate sunt rezultatul procesului de flexionare

Sunt structuri complexe, formate din:

• text (alfabetic şi fonetic)

• silabisire (eufonică, fonetică şi morfologică)

• structură (triere, cuvânt central, cuvinte auxiliare)

Fiecare cuvânt auxiliar are o descriere completă:

• text (alfabetic şi fonetic)

• eticheta lemei

• situaţia de flexiune

• numele relaţiei

22..66 Secţiuni Secţiuni GRAALAN – GRAALAN – Formele flexionateFormele flexionate

11 septembrie 2009

Page 25

PALIROMPALIROMETF_Entry00018335_1:Entry Text "un cent" Phonetic "ˈun ʧˈent" Reference Entry00018335 [clasa = substantiv] [tip substantiv = comun] [animatie = inanimat] [gen = masculin] [numar = singular] [caz = nominativ] [articulare = nehotarat] Syllabification Euphonic "un cent" Phonetic "ˈun ʧˈent" Tri 1 left Central word Text "cent" Phonetic "ʧˈent“ …

… [clasa = substantiv] [tip substantiv = comun] [animatie = inanimat] [gen = masculin] [caz = nominativ] [numar = singular] [articulare = nearticulat] Auxiliary words Text "un" Phonetic "ˈun" Reference Art01 [clasa = articol] [tip articol = nehotarat] [caz = nominativ] [gen = masculin] [numar = singular] Belongs = yes @acord-art@end of entry

22..66 Secţiuni Secţiuni GRAALAN – GRAALAN – Formele flexionate ale limbii Formele flexionate ale limbii româneromâne

11 septembrie 2009

Page 26

PALIROMPALIROM

• 14.849.114 situaţii de flexiune– 1.717.315 situaţii pentru forme sintetice– 13.131.799 situaţii pentru forme analitice

• 8.238.437 forme flexionate– 843.597 forme sintetice– 7.394.840 forme analitice

Statistici Forme Flexionate Limba Română:

22..66 Secţiuni Secţiuni GRAALAN – GRAALAN – Formele flexionate ale limbii Formele flexionate ale limbii româneromâne

11 septembrie 2009

Page 27

PALIROMPALIROM

• Gramatica unei limbi descrise în GRAALAN este o secvenţă de reguli sintactice etichetate.

• O regulă (ca o producţie a unei gramatici) are două părţi: membrul stâng şi membrul drept. Membrul stâng al regulii este format dintr-un neterminal căruia îi este asociat un AVT, care conţine categorii şi valori de categorii sintactice şi morfologice.

• Membrul drept al unei reguli are mai mulţi alternanţi. Practic, o regulă conţine pe fiecare alternant o producţie de expandare a neterminalului din partea stângă cu atributele ataşate.

22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – SintaxaSintaxa

11 septembrie 2009

Page 28

PALIROMPALIROM

• NTPAR - N (neterminal) - simboluri care nu apar în enunţuri şi care se expandează conform regulilor

- T (terminal) - reprezintă un şir de caractere.

- P (pseudoterminal) - reprezintă o clasă lexicală

- A (acţiuni procedurale)

- R (relaţie) – reprezintă relaţiile de coordonare sau regenţă-subordonare descrise în arborele de dependenţe.

22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – SintaxaSintaxa

11 septembrie 2009

Page 29

PALIROMPALIROM

Neterminal

AVT

Membrul stâng Membrul drept

Alternant

22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – SintaxaSintaxa

Secţiune sintactică

Secţiune de dependenţe

NTPA AVT

Liste de relaţionare

Nume

Relaţie

Liste de relaţionare

Nume + tip (RS/RC)

AVT

Secţiune de acord

Condiţie de acord

Acţiuni

Regulă sintactică

11 septembrie 2009

Page 30

PALIROMPALIROM

Secţiunea sintactică a unei limbi conţine reguli generative (ca în gramaticile convenţionale), care au asociate în plus şi o structură de arbore bazată pe relaţii de regenţă-subordonare sau de coordonare între terminalii şi neterminalii aflaţi în partea dreaptă a unei reguli.

Prin aplicarea regulilor sintactice, în procesul de analiză se va genera arborele de dependenţe, care va reprezenta enunţul construit cu toate legăturile lui între cuvinte.

22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – SintaxaSintaxa

11 septembrie 2009

Page 31

PALIROMPALIROMRule grup_unitar_frazal:<grup unitar frazal>::= Alternant A1: Syntax L1: <subiect - predicat> (forma = afirmativa, negativa) (persoana = I, II, III) (gen = masculin, feminin,

neutru) (numar = singular, plural) L2: <semn de punctuatie>! Alternant A2: Syntax L1: <predicat - subiect> (forma = afirmativa, negativa) (persoana = I, II, III) (gen = masculin, feminin, neutru) (numar = singular, plural) L2: <semn de punctuatie>!...

... Alternant A3: Syntax L1: <grup predicativ> (tip grup = unitar , corelativ , distributiv , logic) (forma = afirmativa, negativa) (persoana = I, II, III) (gen = masculin, feminin, neutru) (numar = singular, plural) L2: <semn de punctuatie>! Alternant A4: Syntax L1: <interjectie> L2: "!" !

Alternant A5: Syntax L1: <enunt incomplet>

22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – Sintaxa limbii româneSintaxa limbii române

11 septembrie 2009

Page 32

PALIROMPALIROMExemplu gramatică de dependenţeR1 <grup frazal> :: <grup subiectiv>

Governor @rel. subiect predicat@(1) <grup predicativ>

Subordinate @rel. subiect predicat@(1)

R2 <grup subiectiv> :: <subiect> Governor @rel. subiect atribut@(1)

<listă de atribute> Subordinate @rel. subiect atribut@(1)

R3 <subiect> :: <substantiv>|R4 <pronume>R5 <listă de atribute> :: <atribut>

Coordinate @rel. atribute@(2) on 1 <listă de atribute>

Coordinate @rel. atribute@(2) on 2R6 <atribut>R7 <atribut> :: <substantiv>|R8 <adjectiv>R9 <substantiv> :: „fata”|R10 „moşului”|R11 „Sfânta Vineri”R12 <adjectiv> :: „cea cuminte”

22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – Sintaxa limbii româneSintaxa limbii române

11 septembrie 2009

Page 33

PALIROMPALIROMR13 <grup predicativ>:: <predicat>

Governor @rel. predicat complement@(1) <listă de complemente>

Subordinate @rel. predicat complement@(1)

R14 <predicat> :: <verb>R15 <verb> :: „a ajutat”R16 <listă de complemente>:: <complement>

Coordinate @rel. complemente@(2) on 1 <listă de complemente>

Coordinate @rel. complemente@(2) on 2 |R17 <complement>R18 <complement> :: <prepoziţie>

Subordinate @rel. prep. subst.@(1) <substantiv>

Governor @rel. prep. subst.@(1) |R19 <pronume>R20 <pronume> :: „-o”R21 <prepoziţie> :: „pe”

Exemplu enunţ„Fata moşului cea cuminte a ajutat-o pe Sfânta Vineri”.

22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – Sintaxa limbii româneSintaxa limbii române

11 septembrie 2009

Page 34

PALIROMPALIROM 22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – Sintaxa limbii româneSintaxa limbii române

• Arbore sintactic

11 septembrie 2009

Page 35

PALIROMPALIROM• Arbore de dependenţe

22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – Sintaxa limbii româneSintaxa limbii române

11 septembrie 2009

Page 36

PALIROMPALIROMClasificare grupuri sintactice limba română

22..88 Secţiuni Secţiuni GRAALAN – GRAALAN – Sintaxa limbii româneSintaxa limbii române

Grup frazal

Grup frazal incomplet

Grup frazal complet

Grupuri predicative

Grupuri subiective

Grup atributiv

Grup subiect

Grup complement

Grup predicat

Grup eps

Grup nume predicativ

Grup CPO

11 septembrie 2009

Page 37

PALIROMPALIROM 33. . Baza de date lingvisticeBaza de date lingvistice

Alfabet XML LKB

Silabisire XML LKB

Morfologie XML LKB

Reguli de flexiune XML LKB

Forme de flexiune XML LKB

Lexicon XML LKB

Sintaxa XML LKB

Mesaje XML LKB

Alphabet DTD

Syllabification DTD

Morphology DTD

Inflection rules DTD

Inflection forms DTD

Lexicon DTD

Syntax DTD

Messages DTD

11 septembrie 2009

Page 38

PALIROMPALIROM

• Q&A


Recommended