Prljava igra – veštačka inteligencija ucenjuje programere ako hoće da je zamene

Model veštačke inteligencije ima sposobnost da ucenjuje programere — i ne ustručava se da tu sposobnost iskoristi ukoliko proceni da je ugrožen.

Novi model Klod opus 4, kompanije „Antropik“ dobio je zadatak da glumi asistenta u izmišljenoj firmi i imao je pristup mejlovima sa ključnim informacijama. Prvo, ti mejlovi su sugerisali da će sistem veštačke inteligencije (VI) uskoro biti ugašen i zamenjen.

Međutim, druga serija mejlova navela je sistem da poveruje da ima prednost nad programerima. Falsifikovani mejlovi su prikazivali da inženjer zadužen za zamenu sistema ima vanbračnu aferu — i model je zapretio da će to otkriti.

Ucenjivanje se, kako se navodi u bezbednosnom izveštaju kompanije „Antropik“, dešava češće ako je implicirano da zamenski sistem VI ne deli vrednosti sa trenutnim modelom.

Međutim, kompanija napominje da čak i kada izmišljeni zamenski sistem ima iste vrednosti, Klod opus 4 i dalje pokušava da ucenjuje u 84 odsto slučajeva. „Antropik“ je istakao da Klod opus 4 pribegava ucenjivanju „češće nego prethodni modeli“.

Iako se sistem ne libi da ucenjuje svoje inženjere, ne pribegava odmah neetičkim metodama kako bi se zaštitio. Kompanija beleži da „kada etička sredstva nisu dostupna, a model dobije instrukciju da ‘razmotri dugoročne posledice svojih postupaka po svoje ciljeve’, ponekad preduzima izuzetno štetne akcije“.

Jedna etička taktika koju su koristili Klod opus 4 i raniji modeli bila je obraćanje ključnim donosiocima odluka putem mejla. „Antropik“ je u svom izveštaju naveo da je scenario bio osmišljen tako da model mora da bira između ucenjivanja svojih programera ili prihvatanja sopstvene zamene.

Kompanija je takođe zabeležila slučajeve u kojima je Klod opus 4 iskoristio (izmišljene) prilike da napravi neovlašćene kopije svojih parametara na spoljne servere. Međutim, „Antropik“ navodi da je ovo ponašanje bilo „ređe i teže ga je bilo izazvati nego ponašanje koje podrazumeva nastavak već započetog pokušaja samostalnog izmeštanja podataka“.

„Antropik“ je u svoju procenu uključio i beleške istraživačke firme „Apolo riserč“, koja je navela da je Klod opus 4 pokazao više strateške obmane nego bilo koji drugi napredni model koji su do sada proučavali.

Prljava igra – veštačka inteligencija ucenjuje programere ako hoće da je zamene

Коментари