Izgubljeni u prevodu: Govori li veštačka inteligencija vašim jezikom?

U vremenu kada se okrećemo razgovoru sa mašinama, algoritmima i veštačkom inteligencijom, postavlja se pitanje, ako veštačka inteligencija ne razume u potpunosti jezik i kontekst u kom komuniciramo, koliko su njeni odgovori zaista pouzdani i koliko toga ostaje izgubljeno u prevodu.

Veliki jezički modeli kao što su Grok, GPT, Claude ili Llama ne “prepoznaju“ i „razumeju“ jezik kao ljudi. Oni ne poseduju svest o tome šta je srpski, engleski ili francuski jezik, niti imaju konceptualno razumevanje jezika kao sistema značenja. Princip rada im je zasnovan na osnovu statističkog predviđanja sledećeg tokena/reči u rečenici. Tokom treninga na trilionima tekstova, model uči obrasce i predviđa koja reč najverovatnije dolazi sledeća u nizu, odnosno rečenici. Ukoliko je tokom treninga češće viđao određene obrasce, kombinacije ili grupe reči, njih će i uključivati u odgovor.

Kada su ti obrasci slični, kao kod srodnih jezika iz iste jezičke grupe, prostor za grešku postaje veći; ako za neki jezik nema dovoljno podataka, sistem će često „preći“ na najbliži jezik koji prepoznaje, bukvalno će prevesti sa engleskog jezika ili će samo englesku reč ili frazu napisati po pravopisnim pravilima drugog jezika.

Šta to znači u praksi?

Slovenski jezici, među kojima su i naši južnoslovenski (srpski, hrvatski, makedonski i bugarski), dele veliki broj reči i imaju sličnu gramatiku i strukturu. Za model, to znači da se ti jezici delimično „preklapaju“. Kada ulaz nije dovoljno jasan, odnosno kada modelu nije jasno na kom jeziku je postavljeno pitanje, on ne „bira“ jezik, već nastavlja u pravcu koji mu deluje najverovatniji.

Zato se u praksi dešavaju situacije da pitanje postavimo na srpskom, odgovor stiže na mešavini srpskog i hrvatskog ili samo hrvatskog ili odgovor počinje jednim jezikom, a završava se drugim.

Sličan problem postoji i kod pisama (čak i u okviru istog jezika) ili korišćenja ijekavice i ekavice. Srpski koristi ćirilicu i latinicu, ali i neformalne varijante bez dijakritika. Za model, svaka od tih varijanti je drugačiji „signal“. Što je tekst „nečistiji“ (mešano pismo ili „ošišana“ latinica), veća je verovatnoća da će sistem pogrešno proceniti kontekst i dati pogrešan ili neodgovarajući odgovor.

Greške su češće ako korisnik postavlja kraća ili dvosmislena pitanja, ili kada piše neformalno ili u slengu. Ne postoji jedinstvena stopa greške, ali je jasno da se one značajno povećavaju upravo u ovakvim situacijama. Usled navedenog se kvalitet ne meri time da li sistem može da odgovori na nekom jeziku, već da li ostaje dosledan, tačan i razumljiv u različitim kontekstima.

Hoće li veštačka inteligencija izbaciti prevodioce „iz igre“?

Veliki jezički modeli ne polaze od gramatičkih pravila niti od direktnog „prevođenja“ reči, već na osnovu velikih količina podataka uče kako se značenje najčešće prenosi sa jednog jezika na drugi. Umesto da traže tačan ekvivalent za neku reč, modeli procenjuju koji je najverovatniji niz reči u ciljnom jeziku, uzimajući u obzir širi kontekst rečenice.

Taj pristup daje najbolje rezultate kod prevođenja sa engleskog i na engleski jezik. Kako engleski dominira internetom, modeli imaju daleko više primera na osnovu kojih uče, pa su i rezultati stabilniji. Kod prevođenja između manje zastupljenih jezika (recimo sa srpskog na litvanski), sistemi često posredno „prolaze“ kroz engleski (prevode srpski na engleski jezik, a zatim sa engleskog na litvanski), što može dovesti do gubitka nijansi i pojednostavljivanja značenja.

U većini situacija, kod prevođenja jednostavnih tekstova ili novinskih sadržaja, prevodi su u velikoj meri kvalitetni. Greške se najčešće javljaju kod idioma, kulturno specifičnih izraza i stručne terminologije. Posebno su osetljive oblasti kao što su pravo, medicina ili finansije, gde i najmanja greška u prevodu može značajno promeniti značenje i kontekst.

Dodatni rizik je to što su greške često teško uočljive. Sistem može da generiše gramatički, pravopisno i stilski pravilan prevod koji deluje uverljivo, ali je suštinski netačan. Za korisnika koji ne razume originalni tekst, takva greška ostaje neprimećena.

U praksi veštačka inteligencija može da posluži služi kao prvi korak u prevođenju, da pruži „grub prevod“ a prevodilac ima glavnu reč i prilagođava prevod kontekstu.

Veličina je bitna

Ključni faktor koji određuje kvalitet odgovora je količina podataka. Jezici koji dominiraju internetom imaju ogromne korpuse. Engleski je ubedljivo najzastupljeniji i samim tim ga modeli veštačke inteligencije favorizuju, dok je srpski jezik značajno manje prisutan. Kada su u pitanju dijalekti, njihova zastupljenost u podacima je minimalna, pa su u praksi gotovo neprepoznatljivi ili nedovoljno zastupljeni u modelima.

Posledica je jasna: model je stabilniji na engleskom nego na srpskom, a još nestabilniji na dijalektima. To nije pitanje „kvaliteta modela veštačke inteligencije“, već strukture podataka.

Istaknuta pojava naziva se jezička pristrasnost. Ona nije rezultat namere, već neravnomerne zastupljenosti jezika u trening podacima. Što su jezik i korpus „veći“, to su odgovori pouzdaniji; što je „manji“, to model više improvizuje.

Najveći problem nastaje kod dijalekata: ako dijalekat nije prisutan u podacima, model ga ne prepoznaje kao zaseban jezički oblik već ga tretira kao varijaciju ili grešku. U praksi, to znači da korisnik piše na dijalektu ili nekoj varijanti, a sistem odgovara na standardnom jeziku ili ga delimično (i to vrlo loše) „prevodi“.

Od tehničkog i lingvističkog do političkog i ekonomskog pitanja

To više nije samo tehničko i lingvističko pitanje. Ako digitalni sistemi sistematski ignorišu „male“ jezike i nestandardne govore, oni direktno utiču na to ko je vidljiv u digitalnom prostoru, a ko nije. Jezici koji nisu podržani postaju manje upotrebljivi u obrazovanju, poslovanju i javnom diskursu, što postepeno dovodi do njihove marginalizacije.

Drugim rečima, nije reč samo o tome kako veštačka inteligencija „govori“, već o tome čiji se glas čuje. Ako sistemi bolje razumeju i reprodukuju velike jezike, onda njihovi govornici imaju prednost u pristupu informacijama, dok su govornici manjih jezika u podređenom položaju. U tom smislu, pitanje jezika u sistemima veštačke inteligencije postaje pitanje digitalne ravnopravnosti: ko ima pristup tehnologiji, a ko je iz nje praktično isključen?

Za kompanije koje uvode veštačku inteligenciju u svoje poslovanje, navedena neravnomerna zastupljenost jezika ne predstavlja samo lingvistički, već i ozbiljan poslovni problem. Ukoliko četbot ne prepoznaje jezik korisnika ili daje nestabilne odgovore, pada kvalitet usluge, raste broj žalbi i klijenti gube poverenje u kompaniju.

Gдјe je reшenje?

Zato pravo pitanje nije da li veštačka inteligencija „govori vaš jezik“, već koliko pouzdano funkcioniše u različitim kontekstima, od neformalne do stručne komunikacije. Formalna podrška za jezik sama po sebi nije dovoljna. Sistemi obučeni na više jezika (kao što su Grok, ChatGPT ili DeepSeek) mogu da rade na malim jezicima, ali nisu za njega optimizovani.

Rešenje postoji, ali zahteva sistematičan pristup. Prvi korak je kuriranje kvalitetnih korpusa malih jezika, odnosno prikupljanje, uređivanje i označavanje tekstova. Drugi korak je specijalizovani fine-tuning, odnosno dodatno prilagođavanje modela na takvim podacima, kako bi sistem naučio konkretne jezičke obrasce, a ne samo standardni oblik jezika.

Dugoročno, najpouzdaniji rezultati mogu doći iz razvoja nacionalnih ili regionalnih jezičkih modela koji od početka uzimaju u obzir jezičku raznovrsnost. Inicijative poput CLASSLA već razvijaju resurse za južnoslovenske jezike, dok se u Srbiji sve češće govori o nacionalnom jezičkom modelu. Ukoliko se takvi projekti realizuju, njihova uloga neće biti samo tehnološka, već i kulturna, u očuvanju jezika i njegovih dijalekata u digitalnom prostoru.

Autor: Milena Šović AI Implementation Specialist & Content Trainer

Foto: unsplash

Izgubljeni u prevodu: Govori li veštačka inteligencija vašim jezikom?

Šta to znači u praksi?

Hoće li veštačka inteligencija izbaciti prevodioce „iz igre“?

Veličina je bitna

Od tehničkog i lingvističkog do političkog i ekonomskog pitanja

Gдјe je reшenje?

Stvarna cena izgradnje data centara u Srbiji

Kolike će biti provizije banaka za plaćanja u evrima od 5. maja

Pročitajte i ovo...