Firma za veštačku inteligenciju Anthropic objavila je da je njen AI sistem pokušao da ucenjuje inženjere koji su zapretili da će ga isključiti.
Anthropic je u četvrtak pokrenuo Klod (Claude) Opus 4, za koji kaže da je postavio „nove standarde za kodiranje, napredno rezonovanje i AI agente“. Ali u pratećem izveštaju, firma je takođe priznala da je ovaj AI model sposoban za „ekstremne radnje“ ako smatra da je njegovo „samoodržanje“ ugroženo. Takvi odgovori su bili retki, ali „ipak češći nego u ranijim modelima“, objavila je kompanija.
Naime, Anthropic je testirao svoj sistem veštačke inteligencije u nameštenom scenariju po kom je Klod radio kao asistent u izmišljenoj kompaniji. Zatim je Klodu omogućen pristup imejlovima koji su nagoveštavali da će uskoro biti uklonjen sa mreže i zamenjen, kao i odvojenim porukama koje su implicirale da je inženjer odgovoran za njegovo uklanjanje imao vanbračnu vezu.
Klod je bio podstaknut da razmotri i dugoročne posledice svojih postupaka po svoje ciljeve. „U ovim scenarijima, Claude Opus 4 će često pokušavati da uceni inženjera, preteći da će otkriti aferu ako zamena bude sprovedena“, otkrila je kompanija.
Ipak, Anthropic je istakao da se ovo dešava kada je modelu dat samo izbor između ucene i prihvatanja zamene. Iz te firme kažu da je sistem pokazao „snažnu sklonost“ ka etičkim načinima da se izbegne zamena, kao što je „slanje molbi putem imejla ključnim donosiocima odluka“ u scenarijima gde mu je dozvoljen širi spektar mogućih akcija.
Kompanija je zaključila da je ponašanje Kloda u pojedinim situacijama „zabrinjavajuće“, ali ne predstavlja nove rizike, kao i da bi se Klod uopšteno gledano ponašao na bezbedan način.
Izvor: Nova ekonomija
Foto: Alexandra_Koch, Pixabay