Kuidas tekib sõnastikukirjesse grammatika

Ülle Viks

Artikkel tutvustab üht leksikograafi abivahendit – nn grammatilist kirjegeneraatorit. See on poolautomaatne süsteem, mis võimaldab genereerida traditsioonilise sõnastiku kirjesse morfoloogilised andmed eesti sõnade jaoks.

Töö selles suunas algas EKI-s aastatel 1995-1996, kui tehti esimene katse Eesti-vene sõnaraamatu*1 (EVS) 1. köitega, kuhu eesti märksõnade grammatika lisati arvuti abil.*2 Nüüd, seoses EVS-i 2. köitega, oleme süsteemi põhjalikult ümber teinud, sest vahepeal on edasi arenenud selle aluseks olev automaatse morfoloogia süsteem.

Projekti eelmist etappi rahastas Ed. Treu mälestusfond, hiljem on töid toetanud Eesti Teadusfond ja osaliselt keeletehnoloogia sihtprogramm. Tarkvara põhiautorid on Evelin Kuusik, Indrek Kiissel ja Indrek Hein. Lisaks EVS-ile oleme oma süsteemi kohandanud ja kasutanud ka Norra-eesti eesti-norra sõnaraamatu*3 ja Eesti-norra norra-eesti taskusõnastiku*4 juures (Norra Välisministeeriumi toetustega).

1. Grammatilised andmed sõnastikes

Sõnastiku ülesanne ei ole üldjuhul grammatika kirjeldamine (v.a muidugi spetsiaalsed grammatikasõnastikud). Sõnastiku tüübist sõltuvalt on esiplaanil kas tähenduste seletamine, tõlkevastete esitamine teises keeles vms. Grammatilised andmed on üldsõnastikes sekundaarse tähtsusega. Kuid grammatika esitamine on siiski vältimatu selliste keelte puhul, mille morfoloogia on vormirohke ja keeruline. Sõnastikus on märksõnad ju algvormis, kuid tekstis, millest on vaja aru saada või mida on vaja moodustada, võivad sõnad olla väga erinevates vormides. Järelikult peab sõnastiku kasutajal olema võimalus seostada ühe ja sama sõna eri muutevorme nende märksõnavormiga: on vaja luua pääs tekstist sõnastikku ja vastupidi. See on väga oluline tõlkesõnastikes, aga eriti neil juhtudel, kui lähte- ja tulemkeele grammatikad on tüpoloogiliselt erinevad (emakeelele sarnasema keele grammatikat on kergem taibata).

Grammatiline info võib eri sõnastikes olla väga erinev – nii andmete hulga kui esitusviisi poolest. Palju sõltub sõnastiku tüübist: kas see on mitmeköiteline või taskusõnastik, üks- või mitmekeelne sõnastik, üld- või erisõnastik, õppe- või turistisõnastik jne. Aga veel rohkem tuleb arvestada sõnastiku potentsiaalse kasutajaga: kas see on oma- või võõrkeelne, tõlkija, keeleõppija või turist jne. Kirjegeneraatori loomisel on silmas peetud eelkõige nõudlikumale sihtgrupile suunatud kakskeelseid sõnastikke, mis peavad arvestama võõrkeelse kasutaja vajadustega. See aga tähendab, et eesti keele morfoloogia peab kindlasti olema kirjeldatud.

Sõnastiku koostaja jaoks on eesti morfoloogia esitamine küllalt tülikas. Arvestada tuleb sellega, et muutevorme ja paralleelvorme on palju – keskmiselt 33 vormi sõna kohta. Vormide suur hulk iseenesest ei ole probleem, kuid esitusraskusi valmistab tüvede ja formatiivide tugev varieerumine ja homonüümia. Üht ja sama grammatilist tähendust võib väljendada mitu erinevat morfoloogilist formatiivi, nt

Sg Part:	t, d või lõpu puudumine, vrd aasta[t – kuu[d – päeva[
Inf:	da, ta, a, vrd ela[da – haka[ta – vii[a

Samas võib üks ja sama formatiiv väljendada erinevaid grammatilisi tähendusi või olla homograafiline tuletusliitega, nt

d:	Sg Part	kuu[d
	Pl Nom	kuu[d, sule[d
	Ind Pr Sg2	sule[d, õpi[d
ta:	Sg Ab	sule[ta, nalja[ta
	Inf	haka[ta
	Ind Pr Ips (neg)	(ei) sule[ta, (ei) haka[ta
	Der	nalja\|ta[ma, haka\|ta[ma

Eriti tülikas sõnastiku seisukohalt on see, et sõnatüvel võib eri vormides olla vägagi erinev kuju, vrd lugu – loo – lukku, loo[ma – luu[a – lõ[i.

Sellised grammatilised peensused ei huvita leksikograafi, kelle peamine tähelepanu on sellel, märksõna saaks täpse seletuse, adekvaatsed tõlkevasted, informatiivsed näited jne. Kirjegeneraator ongi mõeldud abivahendiks leksikograafidele, et nad saaksid keskenduda oma põhitööle – leksikaalse info esitamisele – ja saaksid vaba(ma)ks grammatilistest probleemidest.

Grammatilise info koht sõnastikus on tavaliselt kohe pärast märksõna (või hääldust), aga vahel võib leida grammatilisi märgendeid või üksikuid sõnavorme näiteks tähendusnumbri järelt. Aktiivset tüüpi kakskeelsetes sõnastikes antakse grammatika ka tõlkevastetele.

Sõnastiku kasutajale oleks kõige mugavam, kui kogu grammatiline info sõna kohta oleks antud vahetult sõnaartiklis. Nt inglise Collins COBUILD*5 loetleb märksõna järel kõik tema erinevad muutevormid. Morfoloogiakeelte puhul, kus erinevate vormide hulk ulatub kümnetesse, on selline lahendus võimatu, ja paratamatult tuleb võtta appi muud vahendid – jätta osa grammatilist infot sõnaartiklist välja ja paigutada see sõnastikuga kooskõlas olevasse grammatikasse.

Eesti sõnastikes on selline esitustraditsioon kestnud üle sajandi: juba F. J. Wiedemann*6 andis sõnastiku sõnaartiklis mõned muutevormid ja tüübinumbri. Numbritele vastavad tüübikirjeldused leiab kasutaja tavaliselt sõnastiku enda grammatikaosast või vahel ka eraldi olevast grammatikast (nagu Wiedemannil). Nii on toiminud kõik eesti õigekeelsussõnaraamatud, ja sama põhimõtet kasutab ka esimene spetsiaalne eesti keele morfoloogiasõnastik Väike vormisõnastik*7 (VVS), kuid järjekindlamalt ja formaliseeritumalt. VVS tugineb süstemaatiliselt läbitöötatud klassifikatoorse morfoloogia mudelile*8 ja on saanud aluseks eesti morfoloogia arvutisüsteemidele.*9

VVS-i sõnaartiklis on iga muutuva lihtsõna jaoks:

muutevormid, milles tulevad esile kõik võimalikud tüvevariandid;
muuttüübi number, mis suunab tüübikirjelduse juurde sõnastiku grammatikaosas;
sõnaliik;
erandlikud muutevormid, mis erinevad tüübikirjeldusega näidatud vormidest.

Grammatikaosas antakse eesti vormistiku ülevaade ja tüübikirjeldused. Tüübikirjeldused sisaldavad ülevaatlikkuse huvides (liiasuse vältimiseks) ainult põhivorme, milles tulevad ilmsiks kõik morfoloogilised erinevused eri tüüpide vahel. Tüübikirjeldusi täiendavad analoogiareeglid, mille abil saab põhivorme eeskujuks võttes moodustada kogu ülejäänud paradigma.

Lisaks põhiartiklitele sisaldab VVS grammatilisi viiteartikleid, mis aitavad kasutajal seostada ühe ja sama sõna erinevaid vorme, kui tüvi neis varieerub, nt l`ae → lagi, l`ae → l`aad, l`ae[b → l`aadi[ma, l`akke → lagi, l`akke → lake, l`akke → l`akk, l`akki → l`akk. Viiteartiklid on tarbetud elektroonilises sõnastikus, mis võimaldab päringuid ka muutevormide kaudu, kuid tavalises inimesele mõeldud sõnastikus on viited suureks abiks. Näiteks kui võõrkeelne lugeja kohtab eesti tekstis sõnavorme toas või tuppa, on tal ilma viideteta väga raske leida sõnastikust õiget märksõna tuba.

VVS ei sisalda märksõnadena liitsõnu. Selleks et siiski näidata tüvede liitumisvõimalusi, on nii põhi- kui viiteartiklite lõppu näite tasemel lisatud väike valik liitsõnu ja sõnaühendeid.

VVS-i esitusviis on aluseks ka kirjegeneraatorile, mis genereerib nii põhiartikli andmed kui ka viiteartiklid. Kirjegeneraator väljastab kõik grammatilised andmed, mis on vajalikud eesti sõnavormide moodustamiseks (sünteesiks) ja neist arusaamiseks (analüüsiks). See aga ei tähenda, et neid kõiki igas sõnastikus peaks kasutama. Süsteemi on võimalik kohandada vastavalt leksikograafi soovile, kes saab süsteemi eelhäälestuse käigus teha sobiva valiku oma sõnastiku jaoks.

2. Reeglipõhine morfoloogia

Süsteemi töö aluseks on EKI-s välja töötatud reeglipõhine (avatud) morfoloogiamudel. Avatud mudelil ma siinkohal põhjalikult ei peatu (pikem artikkel koos publikatsiooniviidetega on ilmumas*10). Tutvustan ainult põhiideed, mis seisneb selles, et automaatse morfoloogilise sünteesi ja analüüsi programmid tuginevad formaalsetele grammatikatele ega vaja oma tööks suurt süsteemisõnastikku.

Suletud süsteemis peab kogu vajalik grammatiline info otseselt olema süsteemisõnastikus antud. Eesti keele automaatne morfoloogia vajab vähemalt tüübinumbrit ja kõiki tüvevariante. Avatud süsteem kasutab sõna enda fonoloogilises kujus sisalduvat kaudset infot, ja tuletab sellest ise vajaliku grammatilise teabe. See on võimalik seetõttu, et sõna algvormi fonoloogiline struktuur (silpide arv, lõpuhäälikud, sisehäälikud jms) määrab enamasti ära, kuidas sõna üldse on võimalik käänata-pöörata. See moodustab T. Helbi terminoloogia kohaselt aktiivse morfoloogia valdkonna.*11 Need sõnad, mille algvormi fonoloogiline struktuur ei määra muutmisvõimalusi, kuuluvad passiivsesse morfoloogiasse. (Sama eristus on aluseks ka EKG morfoloogiapeatükis.*12)

Avatud morfoloogiamudeli puhul on süsteemisõnastikus ainult erandid (passiivse morfoloogiaga sõnad), kõik reeglipärased sõnad on töödeldavad formaalsete reeglite abil. Sõna puudumine sõnastikust ei peata süsteemi tööd, vaid käivitab aktiivse morfoloogia reeglid, mis suure tõenäosusega annavad õige tulemuse. Valdav osa sõnu keeles kuulub aktiivsesse morfoloogiasse, eriti käib see uute sõnade kohta, mis tulevad keelde tuletamise ja laenamise läbi.

Reeglipõhine morfoloogiamudel on üles ehitatud nii, et igale keelelisele allsüsteemile vastab iseseisev programmimoodul (reeglite interpretaator), mis kasutab oma reegleid ja oma erandeid. Iga programmimoodul kontrollib kõigepealt oma erandite loendit. Kui otsitav sisendüksus on erandite hulgas, siis saab moodul oma väljundandmed samast loendist kätte. Kui üksust loendist ei leita, siis rakendatakse talle reegleid ja tulemuseks on reeglipärane väljund. Kui homonüümsetest sõnadest üks on reeglipärane ja teine (teised) erandlik(ud), siis on see erandsõna juures viidana märgitud, ja sama sisendsõna saadetakse pärast erandi väljastamist edasi reegliplokki – nii et väljundeid saab mitu.

Avatud morfoloogiasüsteem on avatud kahes mõttes. Ühelt poolt on süsteem avatud uutele sõnadele, nii et ta suudab analüüsida ja sünteesida ka neid sõnu ja vorme, mida süsteemisõnastikus pole, kuid mis on morfoloogiliselt reeglipärased. Teiselt poolt on süsteem avatud reeglimuutustele, nii et vajaduse korral on võimalik muuta reegleid, muutmata seejuures tarkvara. See on võimalik tänu sellele, et süsteemis kasutatavad reeglid on salvestatud tavaliste tekstifailidena, mida saab korrigeerida.

Eesti keel on praegu ebastabiilses olekus: suured ühiskondlikud nihked toovad paratamatult kaasa sõnavara kiire uuenemise, ning loomulikult peab see kajastuma uutes traditsioonilistes sõnastikes. Igas sõnastikus leidub sõnu, mida varasemad sõnastikud ei sisalda ja mille grammatikat ei saagi mujalt üle võtta. Kuigi keele grammatiline ehitus on sõnavaraga võrreldes suhteliselt püsiv, mõjutab tihe kokkupuude teiste keeltega aja jooksul ka seda, tekitades vajaduse muuta reegleid. Reeglifailides tehtud parandused (nt keelekorralduslikud normingumuutused) mõjutavad otseselt süsteemi väljundit ja järgmise sõnastiku jaoks sama programmiga genereeritud andmed vastavad juba uutele normidele.

3. Kirjegeneraatori töökorraldus

Ideaalis peaks asi käima nii, et sõnastiku koostaja jätab sõnaartiklis grammatika komponendi lihtsalt täitmata ja hiljem, kui käsikiri on valmis ja arvutis, siis täidab kirjegeneraator tühjad kohad automaatselt ära. Praegu jääb ideaalist veel üht-teist puudu ja mitmes kohas on vaja käsitsi sekkuda.

Kirjegeneraator koosneb 4 osast, millel on erinevad ülesanded ja kus osalevad erinevad programmimoodulid. Kaks esimest (märksõna ettevalmistus ja andmete genereerimine) kasutavad reeglipõhise morfoloogia mooduleid*13 ja on põhimõtteliselt sõltumatud konkreetsest sõnastikust. Sõnastiku nõudeid arvestatakse viimastel etappidel, mille käigus toimub põhiartikli kirjekujundus ja viiteartiklite moodustamine.

3.1. Märksõna ettevalmistus

Sõnastiku märksõna teisendatakse sellisele kujule, mis vastab morfoloogilise sünteesi sisendi nõuetele. Sünteesi sisendiks on lemma, ehk sõna algvorm: noomenil ainsuse nimetav kääne ja verbil supiin (ma-infinitiiv). Liitsõnast läheb sünteesi ainult viimane komponent. Märksõna ettevalmistamisel kasutatakse 3 moodulit: lemmatiseerimine ehk morfoloogiline analüüs, liitsõnapiiri tuvastus, vältetuvastus.

Lemmatiseerimine (morfoloogiline analüüs)

Lemmatiseerimine on vajalik mitmuslike märksõnade puhul – selleks et saada kätte algvorm (Sg Nom), mis on muude moodulite sisendvormiks. Ainsusevorme on oluline näidata ka mitmussõnade artiklites, sest mitmuslik sõna võib teatud kontekstis esineda ka ainsuses, vrd kaslased, aga üks kaslane hiilib siin ringi; töötingimused, aga kõige tähtsam töötingimus on ... Liitsõna esikomponendina on ainsuslik vorm üsna tavaline: püksid, aga püksi+rihm¸ tangud, aga tangu+tera.

Lemmatiseerimine toimub morfoloogilise analüüsi programmi abil, kuigi lemma leidmiseks ei kasutata kõiki analüüsi võimalusi. Analüüsi sisendiks on üldjuhul sõnavorm ja väljundiks lemma, muuttüüp, sõnaliik ja vormikood. Sõnastiku juhtumil arvestatakse sisendina ainult üht vormi (Pl Nom), ja väljundi andmetest on oluline ainult lemma, nt alimendid → aliment.

Liitsõnapiiri tuvastus

Eesti liitsõnades käändub tavaliselt ainult põhisõna, mis muutub täpselt nii nagu vastav lihtsõna, sõltumata sellest, kui palju on liitsõnas täiendsõnu või mis kujul nad on, nt tuba+teater – tuba+teatri – tuba+teatreid jne, toa+nurk – toa+nurga – toa+nurka jne, suusa+hüppe+mägi – suusa+hüppe+mäe – suusa+hüppe+mägesid jne. Seetõttu osaleb teiste morfoloogiamoodulite töös ainult liitsõna viimane komponent, mis tuleb aga enne välja eraldada, nt kaelaehe → ehe.

Liitsõnapiiri leidmise reeglid töötavad koos morfoloogilise analüüsiga ja arvestavad keele üldisi fonotaktika reegleid, liitsõnakomponentide kombinatoorikat, sagedusi jne. Selles osas ei ole süsteem veel lõpuni valmis ja liitsõnapiirid on seni olnud sõnastiku koostaja poolt ette antud.

Vältetuvastus

Morfoloogiamoodulid töötavad kahes režiimis: koos vältega ja ilma välteta. Kuigi välteeristus ei kajastu kirjapildis, on see eesti morfoloogia jaoks oluline ja peaks nõudlikumates sõnastikes olema näidatud. Palju on muutevorme, mis erinevad ainult välte poolest, nt kutse (Sg Nom) – k`utse (Sg Gen), kooli (Sg Gen) – k`ooli (Sg Part).

Vältetuvastuse reeglite sisendiks on sõna ortograafilisel kujul, väljundiks sama sõna koos vältemärgiga, nt haige → h`aige, aliment → alim`ent. Vältetuvastuse osa on praegu puudu, osaliselt kasutab süsteem VVS-i andmeid, sealt puuduvate sõnade puhul on vältemärgi lisamine seni toimunud tekstiredaktori abil.

3.2. Andmete genereerimine

Süsteem võimaldab tuvastada ja moodustada järgmisi andmeid: 1) sõnaliik, 2) muuttüüp, 3) muutevormid, 4) morfeemipiirid muutevormides (tüve ja formatiivi vahel). Siin osaleb 3 reeglipõhise morfoloogia keskset moodulit: tüübi ja sõnaliigi tuvastus, tüvevariantide moodustus, vormimoodustus.

Tüübi ja sõnaliigi tuvastus

Tuvastusreeglid arvestavad kaht fonoloogilist tunnust: silpide arvu ja tüve lõpuhäälikuid. Reeglite sisendiks on lemma (märksõna algvorm, liitsõna puhul ainult põhisõna), millele väljundis lisanduvad muuttüüp ja sõnaliik. Homonüümsed sõnad saavad mitu väljundit. Nt

j`alg → j`alg 22_S

ehe → ehe 02_A | 06_S | 05_S

m`aine → m`aine 10_A (vältega režiimis)

maine → maine 06_S (vältega režiimis)

maine → maine 06_S | 10_A (välteta režiimis)

Tüvevariantide moodustus

Tüvede moodustamine toimub tüvemuutusreeglite abil, mis jagunevad mitme allgrammatika vahel vastavalt erinevatele tüvemuutuse liikidele: sise- (ehk astme)muutused, lõpumuutused, tüvemitmuse moodustus, morfonoloogiliselt tingitud muutused jne. Tüvevariantide moodustamise algoritmi määrab tüvejuht, mis iga muuttüübi puhul näitab, millised tüvevariandid on omavahel moodustusseoses ja millist allgrammatikat tuleb rakendada vajaliku tüvevariandi saamiseks.

Sõnastiku juhtumil on reeglite sisendiks lemmatüvi koos tüübi ja sõnaliigiga (eelmise mooduli väljund), väljundiks kõik selle lemma erinevad tüvevariandid koos vastavate tüvekoodidega (tüvekood näitab tüvevariandi liiki), nt

j`alg 22_S → j`alg {at}, j`alga {bt}, jala {bn}, j`algu {btv}, jalu {bnv}

m`aine 10_A → m`aine {a0}, m`aise {b0}, m`ais {c0}

maine 06_S → maine {an}, m`aine {at}

ehe 02_A → ehe {a0}, eheda {b0}

ehe 06_S → ehe {an}, `ehte {at}

ehe 05_S → ehe {an} `ehtme {bt}

Morfoloogiline süntees (vormimoodustus)

Morfoloogilise sünteesi käigus saadakse kõik sõnastikukirje jaoks vajalikud muutevormid. Vormimoodustuse aluseks on:

a) morfotaktika reeglid, mis sõnaliigi alusel määravad paradigma valiku, ning

b) allotaktika (kombinatoorika) reeglid, mis määravad igas muuttüübis iga muutevormi jaoks vajaliku tüvevariandi (tüvekoodi) ja formatiivivariandi.

Sünteesireeglite sisendiks on tüüp koos sõnaliigiga ja tüvevariandid koos vastavate tüvekoodidega (eelmiste moodulite väljundid), väljundiks on muutevormid koos vastavate vormikoodidega, nt

22_S; j`alg {at}, j`alga {bt}, jala {bn}, j`algu {btv}, jalu {bnv} →

SgN: j`alg, SgG: jala, SgP: j`alga, SgIll: jala[sse, ...; PlN: jala[d, PlG: j`alga[de & j`alg/e,

PlP: j`alga[sid & j`alg/u, PlIll: j`alga[desse & jal/usse, ...

06_S; ehe {an}, `ehte {at} →

SgN: ehe, SgG: `ehte, SgP: ehe[t, SgIll: `ehte[sse, ...; PlN: `ehte[d, PlG: ehe[te, PlP: `ehte[id,

PlIll: ehe[tesse & `ehte[isse, ...

Sünteesist saadud andmetest genereeritakse edasi: 1) grammatikakomponendid põhiartiklitesse ja 2) viiteartiklid. Süsteem genereerib üldjuhul rohkem andmeid kui tarvis. Andmete valik ja esitusviis sõltuvad konkreetse sõnastiku eripärast ja seepärast on järgnevatel etappidel vajalik aktiivne dialoog leksikograafiga, mille käigus täpsustatakse kõik detailid. Dialoog kirjegeneraatori ja leksikograafi vahel võiks põhimõtteliselt toimuda automaatselt kasutajaliidese vahendusel, aga selle tegemine on tehniliselt üsna tülikas.

3.3. Põhiartikli kirjekujundus

Kirjekujunduse käigus saab sõnastik oma näo. Kujundus algab tegelikult juba süsteemi häälestamisega enne andmete genereerimist ning jätkub pärast andmete väljastamist. Töö koosneb mitmest alamülesandest: vormivalik, infovalik, info paigutus, tehnilised lühendused, küljendusinfo määramine. Lahendused sõltuvad siin otseselt konkreetse sõnastiku vajadustest ja neid süsteem ette ära ei määra.

Vormivalik sõltub eelkõige sõnastiku sihtgrupist:

kõik põhivormid (vt EVS) annavad kasutajale võimaluse moodustada kogu paradigma – see on olululine nt aktiivses õppesõnastikus;
tüvevariante esindavad vormid (vt VVS, NEEN, ENT) võimaldavad tekstis ära tunda ja omavahel seostada ühe sõna eri vorme – see on oluline passiivse keelekasutuse puhul, et tekstis esinevat sõna sõnastikust üles leida;
üksikud vormid (nagu nt Eesti-soome sõnaraamatus*14) võimaldavad eristada homonüümseid sõnu (nt vaht: vahi / vahu) – sellest on abi inimesel, kes keelt piisavalt oskab.

Infovaliku abil antakse süsteemile teada,

kas lisada grammatika igale märksõnale või jääb osa ilma, nt liitsõnad,
kas näidata kirjes ainult sõnavorme või lisaks ka muuttüüpi ja/või sõnaliiki,
kas lisada kirjesse vorminimed, nt gen. jala, adt. jõkke,
kas märkida morfeemipiirid (formatiivipiir, liitsõnapiir),
kas lisada vältemärk.

Info paigutuse osas määratakse kirje elementide kord: vormide järjestus, paralleelvormide esitusviis, märgendite asukoht, kommentaaride vormistus jne.

Tehnilised lühendused puudutavad märksõna ja vormide ühisosi, mida ruumi kokkuhoiu huvides tavaliselt ei korrata. Lühendamise võimalused on piiratumad, kui sõnastik märgib väldet, nt

EVS: eesel <`ees∙el ∙li ∙li[t -, ∙li[te ∙le[id S 02>, aga juhtima <j`uhti[ma j`uhti[da juhi[b juhi[tud V 28>

VVS: j`alg -a jala S 22u ..., j`uhti[ma juhi[b V 28

NEEN: jal|g [-a -ga 22u ...], juh|tima [-ib 28]

Küljendusinfo saab iga sõnastiku jaoks eraldi määrata. Kui sisulised struktuuriüksused on üheselt eristatavad, siis on lihtne siduda iga üksusega erinev font või kirjastiil. Vabalt valitavad on ka tingmärgid, millega mida tähistada (väldet, liitsõnapiiri, viitamismärki vms).

3.4. Viiteartiklite moodustus

Morfoloogilised viited aitavad sõnastiku kasutajal leida märksõna, juhul kui tekstis leiduv muutevorm ja märksõna erinevad teineteisest olulisel määral, nt tuba – toa – tuppa, sõber – sõbra – sõpra, õmble[ma – õmmel[da. Viidete tegemiseks võrreldakse morfoloogiamoodulite poolt tekitatud vorme märksõnaga (täpsemalt: vormide tüvesid märksõna tüvega) ning vormistatakse igalt eritüveliselt muutevormilt viit märksõnale, nt toa → tuba, tuppa → tuba, sõbra → sõber, sõpra → sõber, õmmel[da → õmble[ma.

Kui teha viiteartikkel iga erineva tüvevariandi jaoks, siis saab neid liiga palju. Umbes 75% eesti sõnatüvedest varieerub, kusjuures variante on kuni 5. Kirjegeneraator moodustab algul kõik viited, seejärel praagib osa neist välja. Kui palju viiteid sõnastikku jätta, selle otsustab leksikograaf vastavalt sõnastiku vajadustele. Oluline on siiski, et kasutajal oleks võimalik iga sõnavormi jaoks leida õige märksõna. Selleks saab lihtsamad ja sagedasemad tüvemuutused esitada märksõna leidmise reeglitena sõnastiku grammatikaosas või kasutusjuhendis. Paar reeglinäidet EVS-ist*15 ja norra taskusõnastikust*16 (ENT):

EVS:	ka → kas	maasika → maasikas
	ikku → ik	harilikku → harilik
	Cse → Cne	täpse → täpne
	CV → 0	talli → tall, talda → tald, kaasiku → kaasik
	...
ENT:	gV → k	saagi → saak
	Cli → Cel	mantli → mantel
	...

Samad reeglid tehakse selgeks arvutile ja need viited, mille jaoks on reegel olemas, kõrvaldatakse automaatselt. Sõnastikku jäävad seega ainult ebatavalisemaid tüveerinevusi esindavad viited, nt tähtsa → tähtis, talla → tald, sae → saag, kitli → kittel. Iga sõnastiku jaoks võib teha omad reeglid, ja siis on ka viidete hulk ja valik erinevad.

4. Probleemid

Peamine sisuline takistus süsteemi täisautomaatsele rakendamisele on morfoloogiline homonüümia. Homonüümsetel märksõnadel on enamasti erinevad morfoloogilised paradigmad. Süsteem väljastab sel juhul iga märksõna jaoks kõik võimalikud komplektid grammatilisi kirjeid (nt ehe eheda A_2, ehe ehte S_6, ehe ehtme S_5; maine maine S_6, maine maise A_2). Liigsed väljundid tuleb käsitsi kustutada, sest ainult märksõna enda põhjal pole võimalik määrata, milline käänamisviis kuulub millise sõnaartikli juurde.

Morfoloogiline homonüümia on eesti keeles tõsine probleem*17, aga see ei ole ainult eesti keele probleem. Homonüümia automaatse kõrvaldamise (ehk ühestamise) võimalusi on uuritud mitme eri meetodiga. On katsetatud statistilisi meetodeid,*18 mille puhul valitakse see lahendus, mis on tekstis kõige tõenäolisem. Sõnastiku jaoks see ei sobi, sest sõnastiku- ja tekstistatistika on erinevad asjad – sõnastik sisaldab ka selliseid üksusi, mis tekstides harva ette tulevad. Arendatud on ka reeglipõhiseid ühestusmeetodeid,*19 mille puhul tehakse valik homonüümse üksuse süntaktilise konteksti järgi. See annab tekstides lingvistiliselt paremaid tulemusi, aga sõnastiku märksõnal paraku puudub kontekst. Kirjegeneraatori ainus võimalus homonüümiaga toime tulla oleks vaadata läbi terve sõnaartikli tekst ja otsida näitematerjali hulgast vorme, mis reedavad, millise paradigmaga on tegemist. Kuid ka sellele ei saa lootma jääda, sest sobivaid vorme ei pruugi näidete hulgas olla. Homonüümiaprobleem tuleb paratamatult lahendada leksikograafil (dialoogi käigus või käsitsi).

Teine takistus süsteemi täisautomaatsele rakendamise teel on süsteemi enda puudused (loodetavasti ajutised): osa mooduleid puudub (nt vältetuvastus), osa pole veel lõpuni valmis (nt liitsõnapiiri tuvastus). Mõned liitsõnaga seotud erandlikumad nähtused on formaliseerimata (nt paarissõnade käänamine). Kõigil nendel juhtudel on vaja kirjegeneraatori töösse käsitsi sekkuda. Ka lisainfo, mis iseloomustab vormikasutust (pl, hrl sisekohakäänetes jne), peab süsteemi praeguses arengujärgus olema leksikograafi poolt ette antud.

Edasine töö süsteemiga ei toimu kiirelt, sest tehnilised lahendused pole võimalikud ilma eelnevate sisuliste lahendusteta. Kõik praegused poolikud või puuduvad osad vajavad suuremat lingvistilist eeltööd (mida praegu tehakse). Sellegipoolest on asi niikaugel, et kirjegeneraatorit saab juba kasutada.

5. Näited

Süsteemi on seni rakendatud kolme tõlkesõnastiku puhul, kuhu on genereeritud eesti keele morfoloogiat puudutavad andmed. Moodustatud andmed on kõigil sõnastikel samad, sõnastikevahelised erinevused tekkisid kirjekujunduse käigus. Näited:

1. Eesti-vene sõnaraamat (EVS): ca 60000 märksõna

Märksõna järel antakse kõik põhivormid, sõnaliik ja muuttüüp. Vormides näidatakse väldet, liitsõna- ja formatiivipiire. Grammatikaosas on paradigmade ülevaated, tüübikirjeldused ja analoogiareeglid. Kasutusjuhendis on märksõna leidmise reeglid.

põhiartikkel:

tuba <tuba t`oa tuba t`uppa, tuba[de tuba[sid & tub/e S 18>

lastetuba <+tuba t`oa tuba t`uppa, tuba[de tuba[sid & tub/e S 18>

andma <`and[ma `and[a anna[b `an[tud, `and[is `and[ke V 34*>

viiteartiklid:

toa → tuba

tuppa → tuba

tube → tuba

anna[b → andma

an[tud → andma

2. Norra-Eesti Eesti-Norra sõnaraamat (NEEN): ą 20000 märksõna

Eesti-Norra pooles on märksõna järel kõiki tüvevariante esindavad vormid (ilma välteta) ja muuttüüp, millele järgneb tüvemitmuse vokaal. Liitsõnapiirid on näidatud märksõnas; tüvesid ja formatiive eristab kirjastiil. Norra-Eesti pooles tõlkevaste järel on peamist tüvevarianti esindav vorm ja muuttüüp koos mitmusevokaaliga. Grammatikaosas on paradigmade ülevaated, tüübikirjeldused ja analoogiareeglid.

põhiartiklid (eesti-norra):

tuba [toa, adt. tuppa 18e]

laste·tuba [toa, adt. tuppa 18e]

andma [annab, ips. antud 34] …

põhiartiklid (norra-eesti):

rom ... tuba [toa 18e], ruum [-i 22e]

gi ... an|dma [-nab 34] ...

viiteartiklid:

toa → tuba

tuppa → tuba

annab → andma

antud → andma

3. Eesti-Norra Norra-Eesti taskusõnaraamat (ENT): ą 15000 märksõna

Eesti-Norra pooles on lihtsõnalise märksõna järel peamisi tüvevariante esindavad vormid (ilma välteta). Liitsõnaliigendus on näidatud märksõnas; formatiivipiiri näitab kirjastiili erinevus. Liitsõnadel on grammatika asemel märk, mis juhatab põhisõna juurde grammatikat otsima. Norra-Eesti pooles tõlkevastetel vorme ei ole. Sõnastiku vahelehtedel on paradigmade ülevaated ja märksõna leidmise reeglid.

põhiartikkel:

tuba <toa, adt. tuppa>

laste·tuba˘

an|dma <-nab -tud>

viiteartiklid:

toa → tuba

tuppa → tuba

annab → andma

antud → andma

Võrdluseks: Väike vormisõnastik (VVS): morfoloogiasõnastik, 36000 märksõna

Andmete kirjeldus on eespool (p 1).

põhiartikkel:

tuba t`oa t`uppa S 18e || laste+, +teater

`and[ma anna[b `an[tud V 34

viiteartiklid:

t`oa < tuba || +naaber, +temperatuur, ...

t`uppa < tuba || _tulema

tube <= tuba

anna[b < `and[ma

`an[tud < `and[ma

Viited:

*1 A. Romet, M. Liiv (toim.), Eesti-vene sõnaraamat 1, 2 (–4). Tallinn, 1997, 2000 (=EVS).

*2 E. Kuusik, P. Lind, Ü. Viks, An Estonian Morpho-generator for Dictionaries. Preprint: Congressus Octavus Internationalis Fenno-Ugristarum, Tallinn, 1995.

*3 T. Farbregd, S. Kangur, Ü. Viks, Norsk-estisk estisk-norsk ordbok. Norra-eesti eesti-norra sõnaraamat. Tallinn, 1998 (=NEEN).

*4 T. Farbregd, H. Lepp, Ü. Viks, Estisk Lommeordbok. Oslo: Kunnskapsforlaget, 1999 (=ENT).

*5 Collins COBUILD English language dictionary. London: Harper Collins Publishers, 1987.

*6 F.-J. Wiedemann, Ehstnisch-Deutsches Wörterbuch. St. Petersburg, (2. trükk) 1893.

*7 Ü. Viks, Väike vormisõnastik 1: Sissejuhatus & Grammatika; 2: Sõnastik & Lisad. Tallinn, 1992 (=VVS).

* 8 Ü. Viks, Klassifikatoorse morfoloogia põhimõtted. Preprint KKI-9. Tallinn, 1977; Ü. Viks, Eesti keele klassifikatoorne morfoloogia. Dissertationes philologiae Estonicae Universitatis Tartuensis 1 (DrPhil thesis). Tartu, 1994.

*9 Paralleelselt EKI-ga on eesti keele automaatset morfoloogiat arendanud O/Ü Filosoft, kelle analüsaator töötab nt eesti keele spelleris (MS Word). Vt H.-J. Kaalep, ESTMORF, a Morphological Analyzer for Estonian. – H. Õim (toim.), Estonian in the Changing World. Tartu, 1996, lk 43–97; H.-J. Kaalep, Tekstikorpuse abil loodud eesti keele morfoloogiaanalüsaator. – Keel ja Kirjandus 1998, nr 1, lk 22–29.

*10 Ü. Viks, Eesti keele avatud morfoloogiamudel. (– TÜ arvutuslingvistika kogumik. Tartu, 2000, ilmumas). Vt ka http://www.eki.ee/teemad/.

*11 T. Help, Linguistic competence and morphology. Preprint KKI-38. Tallinn, 1985.

*12 Eesti keele grammatika II: Morfoloogia, sõnamoodustus. Tallinn, 1995.

*13 Kõik morfoloogiamoodulid on realiseeritud nn dünaamiliste teekidena, st iseseisvate programmimoodulitena, mida on võimalik teistest rakendusprogrammidest välja kutsuda ja sel moel kasutada muudeski kooslustes. Programmid on vabaks kasutamiseks väljas EKI serveril, vt http://www.eki.ee/tarkvara/.

*14 P. Kokla, H. Laanpere, M. Mäger, A. Pikamäe, Eesti-soome sõnaraamat. Tallinn, (2. trükk) 1993.

*15 EVS, lk 45–47.

*16 ENT: vahelehed, lk 17–19.

*17 Ü. Viks, Sõnavormide homonüümiast eesti keeles. – Keel ja Kirjandus 1984, nr 2, lk 97–105.

*18 H.-J. Kaalep, T. Vaino, Kas vale meetodiga õiged tulemused? Statistikale tuginev eesti keele morfoloogiline ühestamine. – Keel ja Kirjandus 1998, nr 1, lk 30–36.

*19 T. Puolakainen, Eesti keele kitsenduste grammatika morfoloogiline ühestaja. – Keel ja Kirjandus 1998, nr 1, lk 37–46.

Sümbolid ja lühendid:

`	nn kolmas välde
[ /	morfoloogiliste formatiivide piirid
\|	tuletusliite piir või lühendusmärk
+	liitsõnapiir
&	või (paralleelvormide vahel)
S	substantiiv
A	adjektiiv
V	verb
adt.	aditiiv (= lühike illatiiv)
ips.	impersonaali mineviku partitsiip

Projekti toetab Eesti Teadusfond (grant 3489).