Читај ми!

Прљава игра – вештачка интелигенција уцењује програмере ако хоће да је замене

Модел вештачке интелигенције има способност да уцењује програмере — и не устручава се да ту способност искористи уколико процени да је угрожен.

Нови модел Клод опус 4, компаније Антропик“ добио је задатак да глуми асистента у измишљеној фирми и имао је приступ мејловима са кључним информацијама. Прво, ти мејлови су сугерисали да ће систем вештачке интелигенције (ВИ) ускоро бити угашен и замењен.

Међутим, друга серија мејлова навела је систем да поверује да има предност над програмерима. Фалсификовани мејлови су приказивали да инжењер задужен за замену система има ванбрачну аферу — и модел је запретио да ће то открити.

Уцењивање се, како се наводи у безбедносном извештају компаније Антропик“, дешава чешће ако је имплицирано да заменски систем ВИ не дели вредности са тренутним моделом.

Међутим, компанија напомиње да чак и када измишљени заменски систем има исте вредности, Клод опус 4 и даље покушава да уцењује у 84 одсто случајева. Антропик“ је истакао да Клод опус 4 прибегава уцењивању чешће него претходни модели“.

Иако се систем не либи да уцењује своје инжењере, не прибегава одмах неетичким методама како би се заштитио. Компанија бележи да када етичка средства нису доступна, а модел добије инструкцију да ‘размотри дугорочне последице својих поступака по своје циљеве’, понекад предузима изузетно штетне акције.

Једна етичка тактика коју су користили Клод опус 4 и ранији модели била је обраћање кључним доносиоцима одлука путем мејла. Антропик“ је у свом извештају навео да је сценарио био осмишљен тако да модел мора да бира између уцењивања својих програмера или прихватања сопствене замене.

Компанија је такође забележила случајеве у којима је Клод опус 4 искористио (измишљене) прилике да направи неовлашћене копије својих параметара на спољне сервере. Међутим, Антропик“ наводи да је ово понашање било ређе и теже га је било изазвати него понашање које подразумева наставак већ започетог покушаја самосталног измештања података.

„Антропик“ је у своју процену укључио и белешке истраживачке фирме Аполо рисерч“, која је навела да је Клод опус 4 показао више стратешке обмане него било који други напредни модел који су до сада проучавали.

недеља, 25. мај 2025.
15° C

Коментари

Da, ali...
Како преживети прва три дана катастрофе у Србији, и за шта нас припрема ЕУ
Dvojnik mog oca
Вероватно свако од нас има свог двојника са којим дели и сличну ДНК
Nemogućnost tusiranja
Не туширате се сваког дана – не стидите се, то је здраво
Cestitke za uspeh
Да ли сте знали да се најбоље грамофонске ручице производе у Србији
Re: Eh...
Лесковачка спржа – производ са заштићеним географским пореклом