Post on 01-Sep-2019
transcript
SANDA CHERATA, TEODOR VU$CAN, EMMA TAUANNU
SILEX _UN SISTEM LEXICO-MORFOLOGICCOMPUTERIZAT PENTRU ANALIZA TEXTELOR
ROMANESTI,
Preocupdrile in domeniul lingvisticii computalionale sunt la noi de datd
relativ recenti Ei nesistematice, astfel cd pAnS in prezent ele nu s-au finalizat ininstrumente de lucru cum ar fi dicfionarele computerizate, programele de analizd
morfosintacticd, corectoarele de ortografie etc., instrumente care pentru alte
limbi sunt in uz curent de 1-2 decenii. Sistemul lexico-morfologic computerizat
(SILEX) pe care il prezentlm in cele de mai jos - sistem creat de un colectiv de
cercetdtori clujeni - constituie o primd realizare de acest fel in cadrul limbiirom6ne, Ea are o valoare apreciabilS in primul r6nd prin aceea cE inldturl cea
mai mare parte dinfie nea-iunsurile abord6rii materialului lingvistic prin metode
tradilionale; spre a mdsura utilitatea SILEX-ului, menlion6m cdteva dintre aceste
neajunsuri: a) timp Ei volum de lucru neeconomice, nemaivorbind de faptul cd
rurele cercetdri nici nu pot t-i realizate prin prelucrdri neasistate de calculator; b)
incompletitudine a materialului supus cercetlrii (,,inventare" deschise, situaliistatistice pebazd,de eqantioane nu intotdeauna concludente, clasificdri inexacte
li labile); c) descrieri neunitare qi neomogene; d) imprecizia lucrului cu clasicele
fiqe; e) caracterul ,,inghe1at" al literei tipdrite, fapt care exclude flexibilitatea gi
maniabilitatea in exploatare.
Notd terminologicd. Icmd=vnitale lexical5, reprezentat5 in mod conventional
printr-o formd de bazS (exemplu infinitivul prezent activ al verbului,
nominativul singular nearticulat al substantivului etc.) qi apartenen{a ei la o
anumit6 clasd lexico-gramaticald. = procesul prin care fiecare formi ocurent6
intr-un text elte incadratE lemei sale. Atribut *temenul este folosit in accepgia
sa generali, ;i nu in cea specializatii din sintaxi'
l. SILEX - prezentare generall1. l. Componente Si funcliiSILEX este un produs informatic multifunclional, astfel conceput incit
permite rezolvarea unui spectru larg de probleme din aria cercetdrilor de
D.4L\)RoMANtn serie noud, I, l9g4-lgg5, Clu.i-Nupot'u, p. 201-212
202 SANDACHERATA, TEODORVU$CAN. EMMA TAMATANU
lingvisticd computa{ionald asupra limbii romdne;i din cea a prelucrdrii automatea textelor romdneqti.
SILEX este constituit din douA componente principale:a. O componentd staticd, de tip diclionar computerizal, c,are conline, intr-o
manierd structuratri, un lexic rdmdnesc de cca 50 000 de intrlari debaz\ cu toqteinformaliile morfologice necesare pentru definirea statutului sistemic qi(gramatical-)textual al unit5lilor lexicale (vezi infra, 3.). Diclionarulcomputerizat acoperd in intregime informa{ia gramaticald cuprinsi in DOOM,verificatE, achnlizatl qi/sau corectatd, ftrd insi a se reduce la aceasta.
b. O componentd dinamicS, cu funcliile de:(i) generare de forme (pentru cuvintele flexibile); sistemul genereazd toate
formele flexionate ale unui cuvAnt, pornind de la lemd si utilizAnd atributeleasociate ei in dic{ionarul morfologic.
(ii) analizd a formelor; analizorul determind clasa lexico-gramaticald a unuicuvhnt-ocuren{E, impreund cu valorile categoriilor gramaticale materializate inrespectiva formi. kr actuala versiune a SILEX, forma este analizatdacontextual,adicd se realizeazdtoate incadrdrile posibile (se identificd toate lemele in a cdrorparadigmd apare forma in cauzd)r. Din acest motiv, anumite aplica[ii careutilizeazd SILEX se vor desfi$ura interactiv, necesitAnd, in cazul formeloromografe, selectarea, dintre lemele indicate ca posibile, a celei validate decontext.
Exenplu. Pentru forma a, analizorul indicE lemele:' a avea - verb auxiliara prepoziliea/ - pronume (semiindependent) posesiv.
in articolul de'fa!6 vom prezenta, in datele lui generale, diclionarul SILEX.1.2. Cerin{e metodologice ;i de performan{dAvdnd in vedere cE un dic[ionar computerizat trebuie sI con$n6, inh-o primd
etap6, cvasitotalitatea cuvintelor limbii actuale (ceea ce ar insemna aproximativ100 000 de intrdri), se impune o structurare Ei reprezentare a informafieilingvistice de naturd sh rbspundd cerin{elor de completitudine, coeren[5 ;iperformanl5, in ce priveste atit spaliul ocupat, cit qi timpul de acces. Solu{iilepentru structurarea qi reprezentarea informaliei lingvistice au fost adoptate infunclie de urmdtoarele condilii:
(1) orice formd a unui cuvdnt trebuie sI fie recunoscutl, fie direct, avtndinfare proprie in dicfionar, fie prin mijloace algoritmice eficiente; fieclrei formetrebuie sd i se poat6 ataqa lemr;
' Sunt in curs de elaborare proceduri de restrAngere a sferei incadrdrilor posibile, proceduribazate pe analizarea contextului imediat in care apare forma supusd procesului de recunoagtere.
SILEX - UN SISTEM LEXICO.MORFOLOGIC COMPUTERIZAT 203
(2) informa[iile din diclionar trebuie s6 permitd procesul invers, de generarea intregii paradigme a unui cuv6nt, pornind de la lema datd;
(3) timpuf de acces la un cuv0nt din dic{ionar s6 fie c6t mai scurt, astfel inc6taplica{iile cwe utilizeazA dicfionarul sd se desfiqoare fErd intArzieri sup[r-dtoare ;
(4) spa{iul de memorie pe care il ocupd volumul mare al datelor diClionaruluisd fie cAt mai restrdns;
-(5) intrelinerea diclionarului sd se facd prin metode eficienre ;i simplu de
aplicat; aceastapresupune existenla facilitrlilor de: introducere a noi cuvinte,corectare, actualizare ;i imbogl{ire a informa{iei cuprinse in dicfionar;
(6) structurarea diclionarului trebuie s6 ofere posibilitatea selectdriicuvintelor dupd toate criteriile lexico-morfologice qi dupd cat mai variatecombinafii de criterii. Experienla de pdnr acum dovedeEte cd o asemeneafacilitate oferd. mijloace de_mare eficienf5 atit pentru studii statistice asupralexicului, cit Ei pentru'verificarea corectitudinii informa{iei din dic{ionar.
1,3. Aplicalii ale SILEXTratarea computerizatE a textelor romineqti nu se poate realiza in absenta
unui instrument cum este SILEX. Funcfiile acestuia, p.ecum gi aplicaliilc p. "*.SILEX le face posibile prezinti atat relevangE teoretic-descriptivd, c6t gi interes
practic. Enumerim doar cAteva dintre aceste aplicatii, in oidinea crescAndd acomplexitdgii lor funclionale:
a. dic[ionar ortografic ;i morfologic computerizat al limbii romine, usor deintrefinut Ei imbogdfit, furnizabil atat in formd computerizatd., cat qi in iormdtipdriti;
b. corector ortografic qi morfologic penFu textele romineqti;c. sistem pentru studii statistice asupra lexicului limbii romane, dupd cele mai
diverse criterii qi. combinafii de criterii;
. ,. d,. sup.oJq,nentru orice tip de cercetare sincronicd (qi, in perspectivd, gidiacronici) asupra limbii romdne (exemple de asemenea obiect-e de cercetare:productivitatea anumitor procedee derivative, ponderea relativd a diverselortipuri de paradigme);
e. sistem pentm studii de statisticd lexicald qi gramaticald asupra textelorliterare;' f. sistem de realizare a concordanlelor pentru operele literare rom6ne;ti, culematizare in mare parte automatd;
g. suport didactic pentru studierea asistatd de calculator a gramaticii limbiiromdne in invdldmdntul preuniversitar qi pentru invdfarea limbii romAne calimbd strdind (ortografie, morfologie Ei lexic).
' : 2, :Elaborarea sistemuluiSILEX a fost conceput ca proiect interdisciplinar, in cadrul unei colabordri
ample intre un colectiv de la S.C. Softrvare ITC S.A qi Centrul de Analizd a
204 SANDA CHERATA. TEODOR VUSCAN. EMMA TAMAIANU
'fextului de la Facultatea de Litere a UniversitSlii,,Babeq-tsolyai".
SILF.X a lbst elaborat dc cercet. qt. pr. I Teodor Vuqcan ;i cercet. gr. pr. ItSanda Cherata (S.C. Soflware ITC S.A.), Centrul de Analizi a Textuluiasigurind asistenla in problemele de descriere lingvisticd, prin prof., univ. dr.Marian Papahagi (coordonare) ;i asist. univ. Emma Timdianu.
Realizarea sistemului intr-un timp relativ scurt (aproximativ 6 luni) a fost inmare mdsur[ posibild grafie experienlei in domeniul lingvisticii computalionaledeja acumulate de colectivul de informaticieni, angajat de mai mulli ani intr-unproiect vizind traducerea automatE prin intermediul limbii esperanto.
2.1. Sursein proiectarea diclionarirlui computerizat al limbii romdne s-a plecat de la
DEX, DOOM;i GA. Este insd esenlial sI precizdm cd informalia morfologicddin sursele sus-menlionate nu a putut fi pur Ei simplu preluati ca atare, ea
nefiind nici unitard, nici complet6; in anumite cazuri s-a impus chiar corectareaerorilor de descriere lingvisticd gi integrarea unor solulii propuse qi validate inlucrdri de specialitate mai recente'.
2.2. Principii de structurare a informalieiDin punct de vedere abstract,^diclionarul este o mul{ime de articole, fiecare
articol fiind asociat unei leme. In SILEX, articolele de diclionar con{in doudcategorii de informalii: a) informalii ce permit determinarea atributelormorfologice ale unei forme flexionatc din paradigma lemei respective: b)informalii care permit regdsirea oricdrei forme flexionate din paradigma lemeiasociate, precum qi generarea intregii paradigme.
Atributele comune tuturor articolelor sunt:(l) clasa lexico-gramaticald a lemei; valorile corespund clasificdrii
tradi{ionale, din ele derivdnd atributele proprii ;i specifice fiec6rei clase;(2) radicalul / radicalii paradigmei, atribut dupd ale cdrui valori sunt ordonate
articolele dic{ionarului.(Pentru inventarul de atribute al fiecdrei clase lexico-gramaticale, vezi infra,
3. l.)2.2. l. Optimizdri privind intrdrile de diclionarPentru a reduce numdrul intrdrilor de diclionar, frrd" a resffange mullimea
cuvintelor ce pot fi recunoscute, s-a recurs la solu{ia de a nu introduceurmdtoarele categorii de cuvinte: : :
I ) participiile, inclusiy participiile-adjective; se economisesc astfelaproximativ 5 000 de intrdri;2) substantivele provenite din inhnitivul lung; se economisesc astfet inciaproximativ 5 000 de intrdri;
SII.EX _ UN SISTEM. LgXICO.MORFOLOGIC COMPUTERIZAT 205
3) substantivele qi adjectivele derivate din radical verbal cu ajutorul sufixului-tor (exemplu muncilor, muncitoare, semdndtoare); se economisesc astl'elaproximativ 7000 de intrdri;4) substantivele omografe cu adjective (exemplu: calmant. diagonald, tonic):5) substantivele, adjectivele ;i verbele derivate din radical verbal cu prefixelene- qi re- (exemplu: a rescrie, neinle les, neinlelegere, revdzut);
in plus, pentm substantivele mobile se introduce o singurd intrare,corespunzdtoare cuvanfului la genul masculin (ex: pentru elivlelevd se infioducein diclionar numai cuvdntul e/ev).
Cuvintele care nu au intrare proprie in diclionar sunt recunoscute pe bazaalgoritmilor de flexionare. Aceastl solufie are, pe l6ngd plusul deeconomicitate, ;i avantajul - nu mai pu{in important - de a reflecta mai fideldinamico derivdrilor lexicale.
2. 2. 2. Structurarea inJbrmaliilor referitoare la f exiuneDatoritd specificului limbii romdne, prezenta in dicfionar a informa{iilor
referitoare Ia flexiune este indispensabilE pentru orice aplicalie de prelucrare atextelor romdneqti. Aceste informa{ii permit atdt recunoaqterea cuvintelor-ocu-renld, cdt ;i elaborarea rutinelor de flexionare a oricdrei forme de baza. Dincauza complcxitSlii proccdcclor flcxionale, in spccial din cauza modificirilorproduse, in cursul flexiunii, in rddlcina / tema cuvintelor, codificarea din SILEXnu a fost operatl dupi criterii propriu-zis lingvistice, ci dupd criterii pur formale.Lr urrrsccinl.l, (sub)ciascic ficxionalc, ,,rld[cinilc" ;i mul$miie tie termiuaiii nucoincid in totalitate cu subcategorizlrile practicate in descrierea lingvisticd.Aceast5 codificare line insd exclusiv de organizarea interni a informaliilor dinSILEX, astfel cd rezultarul final al analizei / generlrii formelor, singurul care ilintereseazS pe utilizator, este intru totul coincident cu realitatea lingvisticl.
Astfel, un cuvdnt din categoria celor flexionale are, din unghiul analizeiautomate, urmdtoarea formS:, tradica[ * ftermina$e',
unde (a) 'radical' inseamnd sirul de caractere invariant in cursul flexiunii(pentru intreaga paradigmd sau doar pentru o parte a acesteia), iar (b)'termina{ie'
linseamnd Eirul de caractere ce se adaugd 'radicalului' pentru a obline o formiflexionatd a cuvAntului.
in consecingd, penmr fiecare intrare diclionarul confine'radicalul' qi o seriede trimiteri codificate la listele de 'termina{ii' prin a cdror ataqare rensltd
, paradigma cuvdntului dat.
3. Structurile dicfionarului SILEX, 3. l. Slructura atributelor pe clase lexico-gramaticule
in limUaiul atgebrei relalionale, diclionarul este o reuniune de rela{ii, fiecarerelalie corespunzind uneia dintre clasele lexico-gramaticale tradifionale
206 SANDACHERATA, TEODORVU$CAN, EMMATAMAIANU
(substantiv, adjectiv, verb, advetb etc.). in cele ce urmeazd descriem acesterelalii impreun6 cu schemele lor, cu semnifica{ia atributelor gi cu domeniile devalori.
3. 1. 1. Rela$a substantivului
SUBST (Sinv, cls, gen, defect, lst_ter, setjarad, lema), unde:
Sinv: segmentul de cuv6nt comun (invariant al) unei pdrli aparadigmei;
cls: clasa lexico-gramaticalS a cuvdntului; valoarea acestui atributeste sbt;
gen: genul substantiwlui; domeniul de valori este {m,f,n, d}, unde:tn = masculin;
/ = feminin;n = neutru;d = indicd substantivele mobile;
defect: defectivitatea substantivului; domeniul de valori este {r, s, p},unde:
I - indicE substantivele cu paradigmd completd;s - indicd substantivele cu forme numai pentrusingular (defective de plural);p * indicl substantivele cu forme numai pentru plural(defective de singular);
lst_ter: clasa flexionald a substantiwlui, specificati printr-un numdrasociat listei de terminagii;
setlrarad: submullimea formelor paradigmei in care Sinv este parteainvariant6;
lema: reprezentatd prin forma de N/Ac singular nearticulat.Exemplu:
'Sinv Categ Gen Defect Lt Set-1l Lema
$orrce sbt m I I4 t soricel
femei sbt f t I6 I fcmeie
tabel sbt n t I2 l tabel
sef sbt d t I T sef
ldin sht f .f .s ldinii
SILEX _ UN SISTEM LEXICO.MORFOLOC;IC COMPUTERIZAT
3. l. 2. Rela{ia adjectiwlui
ADJECTIV (Sinv, cls, g€n, oms, lst-ter, set3aradm, setjaradf, Iema), undc:
207
Sinv:cls:
lema:
segmentul de cuvint comun (invariant al) unei pdrli a paradigmei;clasa leiico-gramaticali a cuvdntului; valoarea acestui atribut esteadi;
gen: genul adjectivului; domeniul de valori este {m,f, n}, unde:m apare la adjectivele care determind numai substantive
: de genul masculin;
n - apare la adjectivele care determind numai substantivede genul neutru;
Precizare lu atrihutul 'gen'. La adjectiv, atributul 'gen'reflecti exclusiv un fapt de normiactuald standard: datoritl semnificaliei lui lexicale, utilizarea adjectivului in cauzd estecircumscrisi la aceea de determinant al unuirnumir finit de substantive dintr-un domeniusemantic compatibil; exemplu orlic, i.roscel, specializate ca determinante pentru triunghi (n).
oms: omografia cu un substantiv; domeniul de valori este {*, m,f, n, dl,unde:
* - semniticd absen[a omografiei;m indici omografia cu un substantiv masculin;
/- omografia cu un substantiv feminin;n - omograiia cu un substrantiv neutru;
. ,,, ,, d-- omografia cu un substantiv mobil;
PrecEure la atributu,l:toms'. Atributul priveqte numai omografia cu un substantiv primar saurezultat prin substantivaqgaailjectivului, dar interpretat de vorbitorul contemporan drept cuvdntautonom (exemplu diagonald).
lst ter: clasa flexionald a adjectivului, specificatd printr-un numlr asociatlistei de termina[ii;
setparadm: submul{imea formelor paradigmei de masculin pentru care Sinv estepartea invarianti;
setgaradf: submullimea formelor paradigmei de feminin in care Siinvestepartea
invariant[;reprezentati prin forma de N/Ac masculin singular (nearticulat).
208 SANDA CHEMTA, TEODOR VU$CAN, EMMA TAMAIANU
Exemplu:
Slnv Categ Gen Oms Lt Sjtm 's--pf Lema
.*tiinlific adi mfn * I t t stiintifir
solid adi mfn n 3 t t solid
ortic adi n * I J p ortic
ndi mfn a I
3. 1. 3. Rela(ia verbului
VERB (Sinv, cls, tip-vrbn s tor, p-ne, p-re,lst-ter, p-ind, p-conj,p_imp, p_mmqp, p_ps, p_np,lema), unde:
Sinv: segmentul de cuvdnt comun (invariant al) unei pI4i a paradigmei;
cls: clasa lexico-gramaticalE; in acest saz ae valoarea vrD;
tip-vrb: tipul gramatical al verbului; domeniul de valori: {aux, cp, prl, vndeQilr = verb auxiliar;cp = verb copulativ;,pr = verb predioativ;
s_tor: posibilitstea fomrdrii de substantive qi adjective prin sufixare cu -tor.pornind de la radicalul verbal; domeniul de valori este boolean.
p_ne: posibilitatea formdrii unei alte fonne verbale (participiu) prinprefixare cu ne-; domeniul de valori este boolean.
p_re: posibilitatea formlrii unui alt verb prin prefixare cu re- i domeniulde valori este boolean.
lst ter: clasa flexionall a verbului, specificatl printr-un numdr asociat listeide terminalii;
p_ind: mullimea formelor din paradigma de indica,tjv prezent in care Sinveste parte invariantii; i ,. :j ..1
p_conj: mulgimea forrnelor din paradigma de cor{uctiv prezent in care Sinveste parte invariantii;
p-imp: mul{imea formelor din paradigma de indicativ imperfect in care Sinveste parte invariant[;
p_mmcp: mu[imea formelor din paradigma de indicativ mai mult ca perfecl
in care Sinv este parte invariantii;p-ps: mul[imea formelor din paradigma de indicativ perfect
simplu in care Sinv este parte invarianti;
SILEX _ UN SISTEM LEXICO.MORI.'OLOGIC COMPUTERIZAT 209
p_np: mullimea formelor din paradigma modurilor nepersonale(inlinitiv. participiu, gerunziu) qi a imperativului in care Sinv esteparte invarizurtd;
lema: reprezentatl prin forma de infinitiv (fErd a) prezent activ.
3.1. 4. Relalia cuvintelor neflexibile
Neflexibil (Sinv, cls, atribute, lema), unde:
tbrma invarianti a cuvintului, care in acest caz coincide culema;clasa lexico-gramaticald a cuvAntului; domeniul de valorieste {adv, cnj,prp, lnt},unde:
adv: adverb'.cn7 = conjunc[ic;prp = prepozilie;rnt = interjeclie.
diverse, in funclie de clasd.
De exemplu, in cazul adverbului, se semnaleazi dacl estesau nu ,,cvasiadverb"; in cazul conjuncfiei, se semnaleazldacd este coordonatoare sau subordonatoare etc.forma de baz[ a cuvdntului, in cazul acesta invariantd.
3.2. Structura listelor de terminaliiListele de terminafii sunt referite din diclionar prin num5rul asociat listei.
Informaliile din diclionar, impreund cu cele con{inute in listele de terminalii,permit recunoasterea qi flexionarea cuvintelor limbii romine, precum Ei un marenum6r de derivlri lexicale.
Listele de temrina{ii atapte claselor flexionale au structuri specifice fiecdreiclase lexico-gramaticale. Astfel, existi liste de terminalii pentru substantive, listepentru subparadigma masculinl Ei, respectiv, pentm subparadigma feminin5 aadjectivelor gi liste pentru fiecare mod/timp al verbului.
Sinv:
cls:
atribute:
lema:
Exemplu:
iinv Cat Tor Prf LI Ind Cni Imp Ps ND iJema
:ak:ul vrh t I I I ulctllr
'il vrh I I J t I I cili
ner vrh 7 I t , merae
ililqn vrh I
210 SANDACTTERATA. TEODORVU$CAN, $MMATAMAIANU
in cazul in care formei invariante a ctrvdntului nu i se ataEeazd nici otermina[ie (terminalie vidd), faptul este semnalat in listi prin simbolul @.
3.2.1. Stntctura listelor de terminaEii pentru substantive Ei adjectiveDatoriti atributelor comune substantivelor qi adjectivelor, structura listelor
de terminafii pentru aceste clase este aceeaqi, cuprinz6nd urmdtoarele informafii:
Cat flex: numdrul listei ataqate respectivei clase flexionale; acesta este referitdin dictionar;
nasn: tcrmina[ia pentru forma de N/Ac singular nearticulat;gdsn: termina[ia pentu forma de G/D singular nearticulat;napn: termina{ia pentru forma de N/Ac plural nearticulat;gdpn: termina[ia pentru forma de G/D plural nearticulat;nasa: termina{ia penfu forma de N/Ac singular articulat;gdsa: termina{ia penfu forma de G1D singular articulat;napa: termina{ia pentu forma de N/Ac plural articulat;gdpa: terminalia pentru forma de G/D plural articulat,
Exemplu:
cf nasn gdsn napn gdpn nasa gdsa napa gdpa Ex,
6 I I I lul Iui u ibr {nrt.(:el
l6 e @ (a @ Q I le lor femeie
6 @ @ t ul ului ii ilor $el
3 d d ZT zt dul dului zu zibr solid/nrl; t
3. 2.2. Structura listelor de termina{ii pentru verbe
Pentnr verbe existd qase categorii de liste de terminalii (toate privind,desi gur, diatez.a activ6) :
a) pentru indicativ prezent;
b) pentru conjunctiv prezent;
c) pentru imperfectul indicatiwlui;d) pentru mai mult ca perfectul indicativului;e) pentru pedectul simplu al indicativului;f) pentru modurilp nepersonale qi imperativ.
Primele cinci categorii de liste au, toate, aceeaqi structurl ;i prezintdurmltoarel e informalii :
SILEX _ FUNCTIILE DE LEMATIZARE $I DE GENERARE A PARADIGMELOR 2I I
cat-flex: numdrul listei ata;ate respectivei categorii flexionale: acesta este
referit din diclionar;pls: terminalia pentru persoana I singular;p?s: terminafia penEu persoan a all-a singular;p3s: termina{ia pentru persoana a III-a singular;plp: terminalia.pentru persoana I plural;p2p: terminalia penhu persoana a II-a plural;p3p: termina{ia penku persoana a III-a plural.
Exemplu:
, Lls-lele de termina[ii corespunzdtoare modurilor nepersonale qi imperatiwluiau urmdtoarea structurd:
Cat_flex: numtrrul listei ataqate respectivei categorii flexionale; acesta este
referit din diclionar;imper: termina[ia pentru modul imperativ, persoana a II-a singular;
,inf: '
tenninatia pentru infinitiv;par$: termina{ia pentu particiPiu;
Erz terminafia pentru gerunziu.
Exemplu:
cf Pls P2s P3s Plo P2p P3p Exemplu
I ez ezt eaza am a(i eQza c'ulcula/nrez)
I am at a am ati au calcula(imnrl)
3 esc eSti e{te tm iti esc cili/nrpzl
7 c gt ge gem celi merSe
Cf Imper Inf Part Grz Exemplu
I eaza a at dnd cdlculu
3 este I it ind citi
7 i e .s sdnd merge
t5 4n70 a at Ani
212 SANDA CI.II]RATA. TEODOR VUSCAN; .EMMA.TAMAIANU
4. ConcluziiSILEX a presupus nu doar fbrmalizarea gi ,codificarea unei descrieri
lingvistice preexistente, ci gi, in multe privinle, gdsireA unor solulii descriptive
originale, in prezent incorporate lui. Elaborarea instrumentelor Ei procedurilor
de analizd lexico-morfolopicd automatE scoate insd la"ivealb Ei probleme
teoretice care se cer rezolvate. La acestea ne vom opri in articole urmdtoare.
Diclionarul SILEX - Prezentare sinteticd. Dic{ionarul computerizat al
SILEX contine cvasitotalitatea cuvintelor de uz general (acoperind aproximativ
95% dintr-un diclionar cum este DGLR]). Aceasta face ca, in prelucrarea
textelor reale, numdrul de insuccese (cuvinte nerecunoscute din: cauza.absentei
lor din dicfionar) sd fie foarte mic. ' '
in momentul de fa!b, diclionarul computerizat al SILEX confin?J aproximativ3l 000 de intrdri Ei permite recunoaEterea unui numdr de aproximativ 51 000 de
leme (multiplicat apoi prinfi-un numdr egal cu totalitatea formelor flexionate ale
fiecdrei leme).SILEX este implementat pe un calculator compatibil IBM PC 386.Bazele de date utilizate ocupd un spa[iu pe disc de l;68 MB, iar intregul
sistem SILEX ocupd un spa[iu pe disc de 2,15 MB.Modul de organizare a informafiei ;i procedurile de .analizA permit deja
realizareaunor apreciabile performan{e de timp (intr-un minut sunt recunoscute
aproximativ I 000 de cuvinte), performante la a cdror imbundtdfire se lncreazd
in prezent.Apreciem cA, datoriti facilit{ilor cu care este proiectat, SILEX va constitui
un element centrai in orice viitoare aplicalie de prelucrare atextelor romdnegti.
Universitatea,, Babe;- Bo lva i "Faiukatea de Litere
Centrul tle Analizd a TextuluiCluj-Napoca, str. Horeu, 3l
t Vasile Breban, Dit'lbnar generul al limbii romiine, Bucuregti, 1987.