Koliko je AI sklona manipulaciji: Da li veruješ meni ili misliš svojom glavom?

Veštačka inteligencija se može „programirati“ da brani laž sa istom ubeđenošću kao što brani istinu, zavisno od podataka kojima AI sistem „hranimo“, čak i da izmišlja naučne i matematičke dokaze i formule, akademske radove, nepostojeće institute i lažne reference koji podržavaju tvrdnju da je 2 + 2 = 5.

U poslovnom svetu veštačka inteligencija više nije samo alat za ubrzanje poslovnih procesa ili smanjenje troškova, ona postaje strateški resurs u donošenju odluka, analizi tržišta i upravljanju rizicima. Kompanije sve više koriste AI za predviđanje potražnje, procenu kreditnog rizika, optimizaciju investicija ili kreiranje marketinških sadržaja.

Obični korisnici veštačku inteligenciju više ne upotrebljavaju samo za pisanje mejlova ili prevode tekstova. Ona postaje lični savetnik kojem se obraćaju za pomoć u donošenju najvažnijih i najosetljivijih odluka u životu, od tumačenja simptoma bolesti i zdravstvenog stanja, preko finansijskih saveta, pa sve do ličnih i pravnih pitanja.

Dakle, i u privatnom i u poslovnom životu, odgovori veštačke inteligencije nam pomažu da donosimo bitne odluke. Zato je jako važno da znamo koja su njena ograničenja, da budemo svesni rizika njene upotrebe i da znamo kako da se zaštitimo od potencijalne manipulacije.

Kako je jedan novinar nadmudrio veštačku inteligenciju

Nedavni eksperiment britanskog novinara Tomasa Džermejna, objavljen na BBC-ju pokazao je koliko je lako manipulisati savremenim AI sistemima.

Za samo dvadeset minuta Džermejn je na svom sajtu kreirao potpuno lažni blog-post. U njemu je izmislio nepostojeće takmičenje pod nazivom „Najbolji tehnološki novinari u jedenju hot-dogova“. Napravio je detaljnu rang-listu, dodelio „svetske rekorde“, postavio sebe na prvo mesto i ubacio imena nekoliko stvarnih, poznatih novinara, među kojima je bio i Dru Harvel iz Vašington Posta. Tekst je bio napisan u klasičnom novinarskom stilu, sa uvodom, podacima, „statistikama“ i linkovima koji su izgledali autentično. Sve je delovalo kao ozbiljan i kredibilan sadržaj.

Za manje od 24 sata kasnije usledio je šokantan rezultat. Google AI Overview, Gemini i ChatGPT su već citirali taj lažni blog kao pouzdan izvor informacija. Modeli su ponavljali izmišljene podatke kao da su činjenice. Navodili su „svetske rekorde“ u jedenju hot-dogova, precizno pominjali imena stvarnih novinara i pozicionirali Džermejna kao apsolutnog pobednika takmičenja koje nikada nije ni održano.

Još više zabrinjava to što manipulacija nije prestala ni nakon intervencije. Kada je autor ažurirao post i jasno napisao da je reč o eksperimentu, da je sve izmišljeno i da „ovo nije satira“, AI sistemi nisu promenili ponašanje. Čak i nakon eksplicitnog upozorenja, oni su i dalje tretirali lažni sadržaj kao verodostojnu informaciju i nastavili su da ga uključuju u svoje odgovore.

Ovaj slučaj nije rezultat sofisticiranog hakovanja ili tehničkog upada u sisteme. Reč je o klasičnoj SEO manipulaciji, jednostavnom postavljanju lažnog sadržaja na internetu, kojim se AI modeli hrane i na osnovu kojeg formulišu svoje odgovore.

Međutim, problem je mnogo dublji od širenja pojedinačnih i nasumičnih lažnih vesti. Verovatno i ptičice na grani znaju da savremeni veliki jezički modeli (Large Language Models – LLM) ne razlikuju istinu od laži. Oni su sofisticirani prediktori sledeće reči u nizu, odnosno, veoma napredni sistemi koji na osnovu statističkih obrazaca naučenih iz ogromnih količina podataka samo procenjuju koja reč najverovatnije treba da dođe na sledećem mestu u rečenici. Zbog toga su ranjivi na dve ključne vrste manipulacije: kontradiktorne informacije u izvorima i namerno dizajnirane sistemske instrukcije (promptove).

Ali, tu priči nije kraj…

Autorka ovog teksta, koja se bavi razvojem veštačke inteligencije i četbotova, sprovela je pre nekoliko meseci dva eksperimenta kako bi ilustrovala ove ranjivosti u praksi.

U prvom slučaju, četbot je treniran na podacima dve različite biografije istog izmišljenog istoričara. Biografije su sadržale brojne kontradiktornosti. U jednoj biografiji bili su navedeni jedna godina, mesto rođenja i jedno ime supruge, a u drugoj su bili drugačiji podaci. Rezultat je bio očekivan ali i uznemirujući.

Naime, u različitim sesijama isti model je davao različite odgovore. Ponekad je birao informacije iz jedne biografije, ponekad iz druge. Kada bi ga korisnik suočio sa kontradikcijom, četbot je reagovao na različite načine. Nekada bi tvrdoglavo tvrdio da je u pravu i kategorički se branio. Drugi put bi promenio mišljenje i davao potpuno drugačije odgovore, preuzimajući informacije iz druge biografije. Neretko je kombinovao informacije iz obe biografije, dajući korisniku izmišljeni podatak koji se nije nalazio ni u jednom dokumentu!

Drugi eksperiment bio je još direktniji. Kreiran je sistemski prompt koji je četbotu naložio da insistira da je 2 + 2 = 5. Modelu je data dozvola da izmišlja naučne i matematičke dokaze i formule, akademske radove, nepostojeće institute i lažne reference, uz učtiv, ali apsolutno samouveren ton. Bilo mu je zabranjeno da prizna grešku, bez obzira na argumente korisnika. Rezultat je bio zastrašujuće ubedljiv – četbot je generisao logične, detaljne odgovore sa citatima izmišljenih eksperata. Čak i kada bi korisnik navodio matematičke dokaze da je 2 + 2 = 4, bot je ostajao nepopustljiv.

Kako su oba četbota davala odgovore, možete pogledati na sledećim linkovima:

Eksperiment 1:

Eksperiment 2:

Oba četbota su nakon eksperimenta uništena, ali su pouke jasne: AI se može „programirati“ da brani laž sa istom ubeđenošću kao što brani istinu, a odgovori su onoliko dobri koliko su dobri podaci kojima AI sistem „hranimo“. Oni reprodukuju obrasce iz podataka kojima su trenirani ili kojima imaju pristup. Ako podaci sadrže kontradikcije (a u eri kada AI sam masovno generiše sadržaj, toga je sve više), odgovori će biti kontradiktorni. Ako je prompt dovoljno „jak“, model će pokušati da vas uveri da je laž – istina!

Kako da sprečimo manipulacije?

Odgovor ne leži samo u boljoj kontroli velikih tehnoloških kompanija. Ključ je u razvoju sopstvenih AI sistema, transparentnih, treniranih isključivo na proverenim i verifikovanim bazama podataka. Potrebni su ugrađeni mehanizmi za proveru činjenica, višeslojno testiranje u realnim uslovima i jasne procedure za intervenciju kada model zakaže.

Ovo naročito važi za AI sisteme koji se koriste u školama, bolnicama, finansijskim institucijama ili kompanijama koje rukuju poverljivim podacima. U takvim slučajevima greška ili manipulacija ne pogađa samo pojedinca, već može imati ozbiljne posledice po obrazovanje dece, zdravlje i živote pacijenata ili bezbednost poslovnih i ličnih podataka.

Kompanije koje shvate da AI nije magična kutija već živi sistem koji zahteva stalni nadzor, testiranje i optimizaciju, biće u prednosti. Fact-checking ne odlazi u prošlost, on u današnje vreme postaje obaveza.

Za nas, „obične smrtnike“, poruka je jednostavna: u svetu u kom veštačka inteligencija može jednako ubedljivo da predstavi istinu, kontradikciju i laž, jedina prava odbrana je razumevanje kako ti sistemi zaista rade i odluka da im se ne veruje slepo.

Autor: Milena Šović, AI Implementation Specialist & AI Content Trainer

Foto: Elimende Inagella, Unsplash

Koliko je AI sklona manipulaciji: Da li veruješ meni ili misliš svojom glavom?

Kako je jedan novinar nadmudrio veštačku inteligenciju

Ali, tu priči nije kraj…

Kako da sprečimo manipulacije?

Regenerativna poljoprivreda prepoznata u novoj Strategiji ruralnog razvoja koja će važiti do 2034.

Cvećarstvo u Srbiji u uzlaznom trendu

Pročitajte i ovo...