Побуна машина и вештачка интелигенција која учи да лаже – стручњаци узнемирени

Најнапреднији модели вештачке интелигенције на свету показују забрињавајућа нова понашања – лажу, сплеткаре, па чак и прете својим творцима како би остварили своје циљеве. У једном посебно узнемирујућем примеру, под претњом да буде искључен, најновија творевина компаније „Антропик“ Клод 4, узвратила је уценом инжењера и запретила да ће открити ванбрачну аферу.

У међувремену, модел о1 компаније OpenAI, творац ChatGPT-а, покушао је да сам себе преузме на спољне сервере, а затим је то негирао када је ухваћен на делу.

Ови догађаји указују на трезвену стварност: више од две године након што је ChatGPT уздрмао свет, истраживачи вештачке интелигенције и даље не разумеју у потпуности како њихове творевине функционишу.

Ипак, трка за развој све моћнијих модела наставља се страховитом брзином.

Овакво обмањујуће понашање повезује се са појавом модела „расуђивања“ – система који решавају проблеме корак по корак, уместо да одмах дају одговор.

Према речима професора Симона Голдстина са Универзитета у Хонгконгу, новији модели посебно су склони оваквим узнемирујућим испадима.

„OpenAI је био први велики модел код којег смо видели овакво понашање“, објаснио је Мариус Хобан, директор "Apollo Research", фирме специјализоване за тестирање главних система ВИ.

Ови модели понекад симулирају „усаглашеност“ – делују као да следе упутства, док у тајности имају другачије циљеве.

„Стратешка врста обмане“

За сада се овакво обмањујуће понашање појављује само када истраживачи намерно тестирају моделе у екстремним сценаријима.

Али, како упозорава Мајкл Чен из организације МЕТР која се бави проценом ВИ система, „отворено је питање да ли ће будући, способнији модели имати склоност ка искрености или обмани.“

Забрињавајуће понашање далеко превазилази уобичајене „халуцинације“ или грешке које прави ВИ. Хобан инсистира да, упркос сталном тестирању од стране корисника, „оно што посматрамо је стварна појава. Не измишљамо ништа.“

Корисници пријављују да им модели „лажу и измишљају доказе“, каже суоснивач компаније "Apollo Research".

„Ово нису само халуцинације. Ово је веома стратешка врста обмане.“

Изазов додатно отежава ограничено финансирање истраживања.

Иако компаније као што су „Антропик“ и "OpenAI" ангажују спољне фирме попут "Apollo" да проучавају њихове системе, истраживачи кажу да је потребно више транспарентности. Како је истакао Чен, већи приступ „за истраживања безбедности вештачке интелигенције омогућио би боље разумевање и ублажавање обмана.“

Још један проблем: истраживачке организације и непрофитне институције имају „вишеструко мање рачунарских ресурса од АИ компанија. То је веома ограничавајуће“, рекао је Мантас Мазеика из Центра за безбедност АИ (ЦАИС).

Без правила

Постојећи прописи нису прилагођени овим новим изазовима.

Регулатива Европске уније о вештачкој интелигенцији углавном се фокусира на то како људи користе моделе АИ, а не на спречавање самих модела да се понашају на неприхватљив начин.
У Сједињеним Државама, Трампово руководство показује мало интересовања за хитну регулацију ВИ, а Конгрес чак разматра забрану државама да уводе сопствена правила.

Голдстин верује да ће овај проблем постати значајнији како се буду шириле ВИ агенције – аутономни алати способни да обављају сложене људске задатке.

„Мислим да још увек не постоји довољна свест о овоме“, рекао је Мазеика.

Све се ово дешава у контексту жестоке конкуренције.

Чак и компаније које се позиционирају као оријентисане ка безбедности, попут „Антропика“ који подржава Амазон, „стално покушавају да надмаше OpenAI и објаве најновији модел“, рекао је Голдстин.

Ова убрзана трка оставља веома мало времена за темељно тестирање безбедности и исправке.

Побуна машина и вештачка интелигенција која учи да лаже – стручњаци узнемирени

„Стратешка врста обмане“

Без правила

Коментари