Vsakdo se je kdaj znašel pred katero od naslednjih jezikovnih dilem: Je bolje, da uporabim besedo otvoritev ali odprtje razstave? Bi raje napisal, da se je treba skoncentrirati ali osredotočiti na branje? S slovarjem slovenskega knjižnega jezika in pravopisom bi si radovednež v takih okoliščinah težko pomagal, vsi omenjeni izrazi namreč v slovenskem jeziku obstajajo, najpogosteje nastopajo kot sopomenke in če bi se morali odločiti, kaj je bolj in kaj manj prav, bi med strastnimi jezikoslovci kaj hitro zanetili prepir. Ta bi se v najboljšem primeru končal z odločitvijo, da je smiselno preveriti, kakšna in kako pogosta je raba enega in drugega izraza v sodobni slovenščini danes. In napotili bi se v jezikovne korpuse.

Jezikovni vir za vsakogar

K sreči ne gre za zaprašene škatle, ki se že desetletja skrivajo v pozabljenih kletnih zakloniščih, temveč prosto dostopne spletne vire. »Jezikovni korpusi so zbirke besedil v elektronski obliki,« nas v svet korpusov, kot sta Gigafida in Nova beseda, popelje dr. Vojko Gorjanc, specialist za korpusno jezikoslovje in profesor na filozofski fakulteti. »Če hočemo s korpusom predstaviti jezik kot celoto, potem naredimo čim bolj reprezentativen vzorec vsega, kar nastaja v nekem jezikovnokulturnem okolju. Lahko pa bi ustvarili tudi korpus za določeno strokovno področje, denimo jedrsko fiziko, zato da ugotovimo, katera terminologija se uporablja in na kakšen način,« dodaja.

Še preden pomislimo, da tovrstnega jezikovnega pripomočka zagotovo ne bi znali uporabljati, nadaljuje, da je prednost korpusa v tem, da gre za spletni vir, ki ga lahko uporablja vsakdo, torej ni namenjen le peščici znanstvenikov, lektorjev, prevajalcev, učiteljev slovenščine in drugih jezikovnih delavcev. »Za uporabo ne potrebujemo prav veliko specifičnih znanj, izhodiščna stran Gigafide je videti zelo podobno kot google, torej zahteva podoben način iskanja. Kar koli bomo vpisali v okence, in to v besedilnem korpusu obstaja, bomo tudi našli,« pravi Gorjanc.

Ne knjižni jezik, ampak raba

In kaj bomo našli, če v prej omenjeno Gigafido, ki vsebuje 1,2 milijarde besed (v vseh oblikah), vnesemo besedi otvoritev in odprtje? Ugotovili bomo, da je v vsem gradivu otvoritev uporabljena 41.966-krat, odprtje pa 59.645-krat. Naslednjič bomo torej napisali kar odprtje, ker je to pravilneje in bolj knjižno, sklenemo! A ni tako preprosto. »Korpus vam bo najbrž povedal to, kar že sami slutite. Ko boste iskali oljčno ali olivno olje, boste ugotovili, da obstaja oboje, ker so sopomenke seveda v naravi jezika. Lahko gre za specifično rabo v določenih besedilih – denimo znanstvenih ali splošnejših novinarskih člankih. Morda gre tudi za ideološko odločitev, da denimo ne bomo uporabljali prevzetih besed,« opozarja Gorjanc. Ob frekvenci rabe nekega izraza si je treba pomagati še z opazovanjem konteksta, torej stavkov, v katerih se beseda v korpusnih rezultatih pojavi, ter z ugotavljanjem, iz katerih virov prihaja besedilo – je iz Jančarjevega romana ali iz Dnevnikovega intervjuja?

»Korpus vam ne pove, kaj sodi v knjižni jezik. Da pa vam dobro informacijo, kaj je jezikovni standard, torej kaj je v rabi in kaj bi bilo popolnoma nevtralno, če bi znali bolj sproščeno, brez ideje, kakšen naj bo obvezno knjižni jezik, pristopati k opazovanju jezikovne skupnosti. Dokler bomo živeli v tej, zadnje čase še posebno radikalni ideologiji knjižnojezikovne norme, bomo imeli govorci težave, ker bomo ves čas odvisni od pooblaščenih oseb ali institucij, ki odločajo, kaj sodi v jezikovno kulturo naše skupnosti in kaj ne. Želel bi si, da bi postal slovenski standardni jezik to, kar je odločitev jezikovne skupnosti, torej nas, govorcev.«

Avtentično neavtentični

Da bi bili rezultati relevantni, morajo biti besedila, ki so vključena v korpus, del realne pisne, govorne ali elektronske komunikacije. A Gorjanc pojasnjuje, da je avtentičnost v slovenščini na neki način pokvarjena: »Moramo se pač zavedati, da imamo v javnem diskurzu velikokrat že prečiščena besedila, v katerih lektorji pravzaprav vsiljujejo neko svoje videnje norme.« Besedila v korpusu so torej avtentična z vidika tega, kaj se pojavlja kot objavljeno besedilo, z vidika avtorjev pa to zaradi lektorskih posegov velikokrat niso avtentična besedila.

To velja tako za prvi slovenski jezikovni korpus Fida s konca 90. let, iz katerega je postopoma zrasla Gigafida (vanj so vključena besedila iz let 1990–2012, dnevno ima okoli 650 obiskovalcev), kot za korpus Nova beseda, ki je začel nastajati leta 1999 (vsebuje besedila iz let 1998–2010 s 318 milijoni besed, dnevni obisk obsega okoli 7500 obiskovalcev). Lektorskim posegom se je izognil le najmlajši, prvi slovenski govorni korpus Gos.

Gorjanc je prepričan, da vsi trije vsebujejo dovolj materiala za opazovanje sprememb, tudi družbenih, v razvoju slovenskega jezika: »V devetdesetih letih sem delal raziskave v korpusu Fida, spremljal sem nove izraze, na primer web. Takrat imamo samo web ali www, potem pa nenadoma dobimo splet in že v prvem letu, ko se svetovni splet pojavi kot slovenska varianta, postane konkurenčen v rabi. V petih letih pa skorajda v celoti v pisnih besedilih nadomesti web