Kui keegi küsib, kui suur on eesti keel, jäävad paljud vastuse võlgu. Kas see on tuhandeid sõnu? Või ehk sadu tuhandeid? Meie igapäevane suhtlus piirdub sageli vaid mõne tuhande sõnaga, kuid ometi tunneme, et keel on hoomamatult rikkalik. See küsimus on intrigeerinud nii filolooge kui ka tavakeele kasutajaid põlvkondade viisi. Sõnade arvu määramine ei ole pelgalt matemaatiline tehe, vaid keeruline lingvistiline ülesanne, mis sõltub otseselt sellest, kuidas me sõna ennast defineerime. Kas “kass” ja “kassid” on üks sõna või kaks? Kas liitsõnad nagu “maaeluarendusprojekt” loendatakse eraldi sõnadena või on need juba olemasolevate osade kombinatsioonid? Need küsimused avavad ukse eesti keele olemusse, selle paindlikkusse ja sellesse, kuidas teadlased tänapäeval keelemahtu mõõdavad.
Sõnavara ja leksikograafia: millest me räägime?
Sõnade lugemisel on kõige suurem takistus definitsiooni puudumine. Leksikograafias ehk sõnaraamatute koostamise teaduses eristatakse sageli kahte mõistet: leksikaalne üksus (lekséem) ja sõnavorm. Lekséem on sõna algkuju ehk see, mida me näeme sõnaraamatus – näiteks “jooksma”. Sõnavormid on kõik selle sõna käändelised ja pöördelised variatsioonid: “jooksen”, “jooksmine”, “jooksnud”, “jooksutaja”. Kui me loendaksime kõik võimalikud grammatilised vormid, ulatuks eesti keele sõnavara miljonitesse, kuna meie keel on aglutineeriv ja võimaldab väga keerulisi vormimoodustusi.
Keeleteadlased eelistavad lugeda lekséeme. Kuid siingi tekib küsimus: kas “auto” ja “autojuht” on kaks erinevat sõna? Enamikus sõnaraamatutes loetakse neid eraldi sissekanneteks, kuid nad kuuluvad samasse sõnaperekonda. Eesti keele puhul on eriti keeruline teema liitsõnade moodustamine. Meie keel lubab põhimõtteliselt lõputult uusi liitsõnu kokku panna – näiteks “koolimaja”, “koolimajaaken”, “koolimajaaknaeeskardin”. Kas me peaksime kõik need teoreetiliselt võimalikud sõnad kandma sõnaraamatusse? Loomulikult mitte. See tähendab, et keele “tegelik” suurus on pidevas muutumises, sõltudes sellest, mida me parasjagu kirja paneme või kõnes kasutame.
Eesti keele suured andmebaasid
Tänapäeva keeleteadus toetub suuresti korpustele ehk hiiglaslikele tekstikogudele, mis on arvutisse sisestatud ja keeleliselt märgistatud. Eesti keele instituudi (EKI) korpused sisaldavad miljardeid sõnakasutusi. Kui vaatame “Eesti keele seletavat sõnaraamatut”, mis on meie keele kõige põhjalikum ametlik allikas, leiame sealt umbes 150 000 märksõna. See arv tundub esmapilgul suur, kuid see ei peegelda kogu elavat keelt.
Oluline on eristada passiivset ja aktiivset sõnavara. Passiivne sõnavara on see, mida inimene mõistab, kui ta seda loeb või kuuleb, kuid ise igapäevaselt ei kasuta. Aktiivne sõnavara on see, mida kasutame oma kõnes. Keskmine haritud eestlane kasutab aktiivselt hinnanguliselt 5 000 kuni 10 000 sõna, kuid mõistab lugemise ajal märksa rohkem – võib-olla kuni 50 000 sõna. Sõnaraamatud, mis sisaldavad 150 000 sõna, hõlmavad seega ka paljusid murdesõnu, vananenud termineid (arhaisme) ja väga spetsiifilisi erialaseid mõisteid, mida tavainimene ei pruugi kunagi kohata.
Liitsõnad ja keeleline loovus
Eesti keele üks eripärasid, mis teeb sõnade loendamise nii keeruliseks, on meie vabadus moodustada liitsõnu. Erinevalt inglise keelest, kus liitsõnad kirjutatakse sageli lahku või sidekriipsuga, surub eesti keel need kokku. See annab meile võimaluse luua täpseid tähendusi just siis, kui neid vaja on. See aga tähendab, et “sõnade arv” keeles on tegelikult piiramatu.
Kui keegi väidab, et eesti keeles on täpselt X arv sõnu, siis ta eksib, sest keel on elav organism. Iga päev tekib uusi sõnu – olgu need tehnoloogilised terminid (nagu “lähiväliside” või “krüptoraha”), släng või uued liitsõnad, mida varem pole kirja pandud. Keeleteadlased peavad pidevalt valima, milliseid uusi sõnu sõnaraamatutesse lisada ja milliseid mitte. See on pidev filtreerimisprotsess.
Miks me ei saa täpset numbrit?
- Sõna definitsioon on muutuv (kas liitsõnad lähevad arvesse?).
- Käänete ja pöörete rohkus tekitab lõputult vorme.
- Erialane terminoloogia kasvab pidevalt koos teaduse ja tehnikaga.
- Släng ja kõnekeel toovad keelde pidevalt juurde uusi väljendeid.
- Murdesõnade piiritlemine on subjektiivne.
Kuidas mõjutab tehnoloogia sõnavara kasvu?
Viimastel aastakümnetel on internet ja sotsiaalmeedia muutnud keelekasutuse tempot. Uued sõnad levivad üle maailma sekunditega. Paljud neist on laensõnad, teised aga nutikad tõlked või mugandused. Kuna digitaalsed tekstid on kergesti analüüsitavad, saavad keeleteadlased nüüd jälgida, kuidas sõnavara muutub reaalajas. See on andnud uue vaate sellele, kui palju sõnu tegelikult kasutatakse.
Huvitaval kombel on aga märgata ka vastupidist trendi: lihtsustumist. Kiire suhtluse vajaduse tõttu kasutatakse sageli lühemaid ja universaalsemaid sõnu. See ei tähenda, et sõnavara väheneks, vaid et see diferentseerub. Meil on nüüd olemas “digitaalne sõnavara” ja “akadeemiline sõnavara”, mis eksisteerivad paralleelselt, kuid erinevates sotsiaalsetes kontekstides.
KKK: Korduma kippuvad küsimused
Kas eesti keeles on rohkem sõnu kui inglise keeles?
Otsest võrdlust on raske teha, sest inglise keele sõnavara on tohutu tänu laenudele erinevatest keeltest. Kuid eesti keele liitsõnamoodustus võimaldab meil luua tohutul hulgal sõnu, mida sõnaraamatutes ei ole, mis teeb meie potentsiaalse sõnavara teoreetiliselt samaväärseks.
Kui palju sõnu peab teadma, et eesti keeles suhelda?
Suhtlustasemel (B1-B2 tase) toimetulekuks piisab umbes 2000–3000 sagedasemast sõnast. See võimaldab mõista enamikku igapäevaseid olukordi ja pidada lihtsamat vestlust.
Kas EKI sõnaraamatud sisaldavad kõiki eesti keele sõnu?
Ei, EKI sõnaraamatud on valikud. Nad sisaldavad kirjakeeles enim kasutatud ja aktsepteeritud sõnu. Sealt puuduvad paljud murdesõnad, släng ja väga kitsad erialaterminid.
Kas liitsõnade arv on lõputu?
Jah, tänu eesti keele grammatikale on liitsõnade moodustamine teoreetiliselt lõputu protsess. See on üks meie keele rikkuse peamisi allikaid.
Kas arvutid aitavad sõnavara loendada?
Absoluutselt. Tänu loomuliku keele töötlusele (NLP) suudavad arvutid analüüsida miljoneid tekste ja eraldada sealt kordumatuid lekséeme, mis aitab teadlastel paremini kaardistada keele tegelikku ulatust.
Sõnavara dünaamika ja keele elujõud
Sõnade täpse hulga küsimus viib meid lõpuks teadmiseni, et keel ei ole staatiline ladu, kuhu on kogutud kindel hulk kaupa. See on dünaamiline süsteem, mis reageerib ümbritsevale maailmale. Kui me leiutame uue masina, anname sellele nime ja see sõna muutub osaks eesti keelest. Kui me unustame vana tööriista, hakkab ka selle nimi meie aktiivsest sõnavarast kaduma. Keele rikkus ei peitu seega mitte numbris, mida keegi suudab kirja panna, vaid võimes luua ja kohanduda.
Keeleteadlased rõhutavad, et iga keelekõneleja kannab endas killukest sellest rikkusest. Meie isiklik sõnavara on nagu peegel, mis näitab, kus me elame, mida me teeme ja kuidas me maailma mõtestame. Kui teadlased räägivad “eesti keele sõnade arvust”, siis nad ei loenda mitte ainult tähti paberil, vaid hindavad kogu rahva kollektiivset mõtlemisvõimet. Eesti keel on oma tuhandete sõnade ja lõputute liitsõnade võimalustega olnud ja jääb olema vahend, mis võimaldab kirjeldada kõike alates metsa kohinast kuni kõige keerukamate filosoofiliste kontseptsioonideni. Seega, järgmine kord, kui keegi küsib, kui palju sõnu eesti keeles on, võite vastata, et neid on täpselt nii palju, kui meil on ideid, mida soovime väljendada.
