Mozaik |
Vreme broj 527, 8. februar 2001. |
![]() |
Srpski jezik na internetu Korpus u računaru “Analiziranjem Vukovog jezika u odnosu na savremeni jezik, istina u okviru jedne pilot-sonde, vidi se da se polako gubi akuzativ, a ĺeăńe se koristi genitiv”, kaže profesor Aleksandar Kostić Po nepisanom pravilu savremenih lingvista da jezik koji nije predstavljen na internetu ne postoji, srpski jezik će nastati tek ovog februara! Tada će biti prikazana internet prezentacija CSL (Corpus of serbian language), koju su postavili stručnjaci Laboratorije za eksperimentalnu psihologiju Filozofskog fakulteta i Instituta za eksperimentalnu fonetiku i patologiju govora. Pored veb sajta, uradili su projekat Kvantitativni opis strukture srpskog jezika kakav, tvrde, nema niko. "Biće to kao da, recimo, Uganda izbaci Habl teleskop, a Amerikanci ga nemaju", kaže Aleksandar Kostić, rukovodilac ovog projekta i profesor psihologije na katedri za psihologiju Filozofskog fakulteta u Beogradu. Tvrdi i da ovaj posao, osim naučne, ima i političku, stratešku i psihološku važnost. Politička se tiče etabliranja jezika. Naučna se, ukratko, odnosi na sledeće: Predstavljanje jezičkog korpusa (određena količina teksta koja može a ne mora da bude obrađena, a služi kao instrument za kvalitativno i kvantitavno istraživanje) u elektronskom obliku uobičajena je pojava u praksi – svetski jezici, engleski, francuski, nemački i sl., prikazani su još pre desetak godina; među manjim jezicima postoje čak hrvatski i bošnjački. U tim korpusima, uz pomoć kompjuterskih programa, definisani su dužina reči, broj slogova, eventualno vrsta reči. "Svako dalje gramatičko određenje zahteva ručnu obradu, pa su zato vrlo retki i mali korpusi sa više podataka, najviše do milion reči, koliko ima britanski na primer. Mi imamo korpus od 11 miliona reči ručno, gramatički, detaljno obrađenih! I to nije sve. Uradili smo dijahroni korpus srpskog jezika od XII veka do danas. Znači, nađete, na primer, neki tekst sv. Save, i pratite promene svake reči iz veka u vek. Ta obrada rađena je na osnovu sistema kodiranja koji razlikuje 2000 gramatičkih oblika. Znači, ovo što imamo najveći je ručno obrađen dijahroni jezički korpus na svetu", tvrdi profesor Kostić. Autor i inicijator ovog projekta je dr Đorđe Kostić (otac Aleksandra Kostića), koji je u Institutu za eksperimentalnu fonetiku, sa 400 saradnika u periodu od 1955. do 1962. godine, obradio materijal koji je stao u sedam tomova Frekvencijskog rečnika, svaki preko 1000 strana. "Bilo je šteta da taj kapital propadne, pa smo 1996. godine nastavili tamo gde je moj otac zaustavljen i, sav rad njegove ekipe sad je u kompjuteru", kaće Aleksandar Kostić. Objašnjava da je u Frekvencijskom rečniku navedena verovatnoća javljanja svake reči. "Mi smo naveli verovatnoću javljanja svih gramatičkih oblika svake reči. Čemu frekvencijski rečnici? Oni su baza svim psiholingvističkim istraživanjima. Dok poredim bogatstvo jezika na primer Andrića i Krleže, na osnovu utiska, to nije nauka, to je impresija. Tek analizom uzorka teksta od recimo 20.000 reči možemo tačno da odredimo čija je leksika i morfologija razgranatija, čija su glagolska vremena bogatija... Nema impresije, sve se egzaktno zna." Profesor Kostić objašnjava da je moguće predviđati razvoj jezika i u budućnosti. "Zamislite koordinatni sistem, na X osi pratite vreme, na Y recimo glagolska vremena. Isto kao što mogu da napravim funkciju koja će pokazati koliko je prezent upotrebljavan u XII veku, mogu da ekstrapoliram tu funkciju u vremenu i da otkrijem da za 150 godina neće biti ni imperfekta ni aorista, a biće prezenta i futura. Ili, analiziranjem Vukovog jezika u odnosu na savremeni jezik, istina u okviru jedne pilot-sonde, vidi se da se polako gubi akuzativ, a ĺeăńe se koristi genitiv." Frekvencijski rečnik je svedok vremena – tu sad dolazimo do njegove strateške važnosti. Profesor Kostić tvrdi da bi, da je u ovoj zemlji postojao centar koji prati strane medije, onog trenutka kad je reč Kosovo u Njujork tajmsu upotrebljena dva puta a pre toga se godinama nije pojavljivala, to bio predznak onoga što će se desiti. Najčešće upotrebljavana reč srpskog jezika jeste glagol biti; u ispitanom korpusu od 11 miliona reči pojavljuje se 94.498 puta, a najčešća imenica je dan, i nalazi se tek na 30. mestu od svih reči. Projekat je urađen sredstvima Instituta za eksperimentalnu fonetiku. Država zasad nije bila zainteresovana. "Bitno je da nije odmagala", kaže profesor Kostić. Očekuje da će sajt CSL privući pažnju javnosti. "Poslaću linkove na 10.000 adresa, pa će se u svetu videti šta smo uradili. Važno je da će se na sajtu pojavljivati i naši radovi vezani za istraživanje korpusa srpskog jezika. Očekujemo da će i strance zainteresovati srpski jezik." Sonja Ćirić |
![]() |