Rezultati i doprinosi

Jezični korpusi predstavljaju vrlo vrijedan i neiscrpan izvor podataka o jeziku. Stoga je preduvjet za višerazinski pristup diskursu stvaranje ili nadopuna postojećih resursa. U okviru ovoga projekata razvit će se nekoliko korpusa govornoga jezika, dok će se postojeće baze nadopuniti ili označiti te će se svi zajedno rabiti kao izvor za ekstrakciju podataka o riječima i strukturama i stvaranje materijala za poticanje diskursne proizvodnje.

Resursi za ekstrakciju obilježja riječi i struktura

Hrvatska leksička baza

Hrvatska leksička baza oblikovana je tijekom projekta Jezična obrada u odraslih govornika (Adult Language Processing; HRZZ: UIP-11-2013-2421). Ovaj resurs sadrži podatke o subjektivnoj predočivosti i čestotnosti za više od 1000 riječi koje je procijenilo tridesetak ispitanika. Riječi u HLB-u ekstrahirane su iz triju dijagnostičkih testova za procjenu jezičnih sposobnosti kod djece i odraslih: Sveobuhvatni test afazije (Kuvač Kraljević i sur., u pripremi; CAT test), Komunikacijske razvojne ljestvice (Kovačević, Jelaska, Kuvač Kraljević i Cepanec 2007; KORALJE) i Peabody slikovni test rječnika (Dunn, Dunn, Kovačević i sur. 2010; PPVT-III-HR )

Tijekom projekta sakupili bi se novi sudionici kako bi se povećala pouzdanost i valjanost postojećih procjena. Baza bi se također nadopunila dodatnim, novim modulom dob usvajanja (engl. age of acquisition) te bi se povećao broj riječi uključenih u bazu. Nadopunjena baza psiholingvističkih obilježja riječi poslužit će kao resurs za provjeru varijabli koje utječu na odabir riječi u sintaktičkim strukturama, dok će se podaci o predočivosti i čestotnosti riječi rabiti kao materijal za poticanje diskursne proizvodnje.

Čestotni rječnik dječjeg jezika

Čestotni rječnik dječjeg jezika (Kuvač-Kraljević, Hržica, Štefanec, u pripremi; DjeČeR) oblikovan je na temelju Hrvatskoga korpusa dječjeg jezika (Kovačević 2002) koji je objavljen u bazi korpusa govorenih jezika TalkBank-u, u dijelu Child Language Data Exchange System (CHILDES; MacWhinney 2007). U sklopu projekta DjeČeR će se djelomično označiti pomoću morfoloških alata za analizu hrvatskoga pisanog jezika te će se ručno obraditi kako bi se označile karakteristike govornog jezika djece. Ovako prilagođen rječnik rabit će se za dohvat podataka o pojavnosti i čestotnosti riječi i njihovih oblika prema vrstama riječi u Hrvatskom korpusu dječjeg jezika.

Korpusi hrvatskoga govorenog jezika i dvojezični korpus

Hrvatski korpus govornog jezika odraslih (HrAL)

Hrvatski korpus govornog jezika odraslih (Kuvač-Kraljević i Hržica 2016a; HrAL) razvijen je tijekom projekta Jezična obrada u odraslih govornika (Adult Language Processing; HRZZ: UIP-11-2013-2421). HrAL obuhvaća 165 govornih jezičnih uzoraka, s više od 250 000 pojavnica i 100 000 različnica, spontane konverzacije 617 ispitanika čiji je materinski jezik hrvatski. Korpus je prikupljen sukladno geografskoj, dijalektnoj i socioekonomskoj raznolikosti Hrvatske. Jezični uzorci u HrAL-u kodirani su, transkribirani i analizirani pomoću sustava Codes for Human Analysis of Transcripts (CHAT; MacWhinney 2000) i Computerised Language Analysis (MacWhinney 2000; CLAN). HrAL je objavljen u bazi korpusa govorenih jezika TalkBank, u dijelu Conversational Bank (MacWhinney 2007; CA Bank)

HrAL omogućuje ekstrakciju podataka o gramatici i leksiku govorenoga jezika te govornikovim pragmatičkim vještinama, analizu pogrešaka u jezičnoj proizvodnji, usporedbu i utjecaj različitih socioekonomskih aspekata na jezičnu proizvodnju i sl. Kako se jezični razvoj temelji na obrascima okolinskog jezika koji se usvajaju postupno, prema načelima čestotnosti, ovaj se korpus može primijeniti i u istraživanju diskursa u razvoju kako bi se predvidjelo i analiziralo pojavljivanje određenih konstrukcija

Trenutno su u izradi dva rada koji se temelje na analizi Hrvatskoga korpusa govornoga jezika: u prvome (R1) radu usredotočuje se na analizu konektora kao veznih srestava na nadrečeničnoj razini, dok se u drugome (R2) usredotočuje na raščlambu sintaktičkih konstrukcija u spontanome govorenom diskursu.

Hrvatski pripovjedni korpus (HPK)

Sposobnost strukturiranja diskursa javlja se već u ranoj životnoj dobi, a razvidno se potvrđuje u sposobnosti pripovijedanja. Jedan od projektnih planova jest razviti Hrvatski pripovjedni korpus (HPK). Korpus će se razviti tako da će se prikupljeni pripovjedni jezični uzorci objediniti, prilagoditi, djelomično označiti i obraditi uz nadopunu drugih relevantnih informacija o govornicima. Pripovjedni korpus objavit će se na najvećoj bazi govornog jezika, u TalkBanku, točnije u dijelu CHILDES, namijenjenom uzorcima dječjeg jezika (MacWhinney 2007).

Korpus dvojezičnih talijansko-hrvatskih govornika (KGD)

Budući da ne postoje resursi koji bi omogućili međujezična istraživanja u području spontanoga govora, točnije nedostaju podaci o načinu i mehanizmima preključivanja (engl. code-switching) u spontanoj komunikaciji, u sklopu projekta prikupit će se Korpus dvojezičnih talijansko-hrvatskih govornika (KDG). Korpus će objediniti jezične uzorke dvojezične spontane konverzacije djece i odraslih govornika u dvojezičnim situacijama. S obzirom na to da u dvojezičnim zajednicama preključivanje učestalo čini neutralni način razgovora, uzorkovanjem dvojezičnih ispitanika prikupit će se podaci ključni za proučavanje mehanizama naizmjeničnoga korištenja dvaju jezika, za opis diskursnih veza u pojedinim idioma te za ekstrakciju podataka o čestotnosti i zastupljenosti struktura u dvojezičnom kontekstu.