Метини инжењери успели да генеришу видео-запис на основу неколико речи

Вештачка интелигенција постаје све боља и боља у генерисању слике као одговор на неколико речи. Истраживачи компаније „Мета“ отишли су корак даље и успели да вештачку интелигенцију искористе за прављење видео-записа на текстуалну команду.

Извршни директор компаније „Мета“, Марк Закерберг, објавио је на свом профилу на Фејсбуку истраживање под називом Make-A-Video, уз видео-клип од 20 секунди у коме се види како су истраживачи „Мете“ произвели видео-записе (додуше веома кратке) на основу неколико текстуалних команди.

Писане поруке гласе: „Плишани медвед који слика аутопортрет“, „Свемирски брод који слеће на Марс“, „Младунче лењивцa са плетеним шеширом покушава да пронађе лаптоп“ и „Робот који сурфује на таласима“.

Видео-снимци за сваку поруку су дуги само неколико секунди и углавном демонстрирају шта је захтевано (са изузетком младунчета лењивца, које не личи много на стварно створење). Снимци су у прилично ниској резолуцији и слика се тресе.

И поред свих мана, ови снимци демонстрирају нови правац у којем истраживање вештачке интелигенције иде јер системи постају све бољи у генерисању слика на основу речи. Међутим, ако ова технологија на крају буде усавршена и почне да се користи, то ће поново изазвати исту забринутост као и када су се појавили алгоритми за претварање текста у слику, пре свега страх да би се могла користити за ширење дезинформација путем видео-матријала.

На веб-страници Make-A-Video могу се видети поменути кратки клипови, али и други од којих неки изгледају прилично реалистично, као на пример видео-клип направљен на команду „Риба кловн плива кроз корални гребен“ или „Млади пар шета по јакој киши“.

У својој објави на Фејсбуку, Закерберг је истакао колико је тешко генерисати покретну слику на основу неколико речи.

„Много је теже направити видео-клип него фотографије јер поред правилног генерисања сваког пиксела, систем такође мора да предвиди како ће се они променити", истакао је извршни директор „Мете“.

У истраживачком раду у коме се објашњава како функционише овај пројекат, стоји да вештачка интелигенција користи модел од текста до слике да би открио како речи кореспондирају са сликама и технику вештачке интелигенције познату као „учење без надзора“ – у којој алгоритми преиспитују податке који нису означени како би препознали обрасце унутар њега – да погледају видео-записе и одреде како изгледа реалистично кретање.

Као и код познатих, популарних система вештачке интелигенције који генеришу слике из текста, истраживачи су истакли да је њихов модел вештачке интелигенције од текста до слике „нахрањен“ подацима са интернета – што значи да је научио „и вероватно усвојио бројне друштвене предрасуде, укључујући и оне негативне“, стоји у раду.

Напомињу да су филтрирали податке за „непожељан садржај и токсичне речи“, али пошто скупови података могу да садрже више милиона слика и текста, можда неће бити могуће уклонити сав такав садржај.

Закерберг је написао да „Мета“ планира да у будућности подели корисницима демо пројекат Make-A-Video.

Број коментара 1

Пошаљи коментар

Упутство

Коментари који садрже вређање, непристојан говор, непроверене оптужбе, расну и националну мржњу као и нетолеранцију било какве врсте неће бити објављени. Говор мржње је забрањен на овом порталу. Коментари се морају односити на тему чланка. Предност ће имати коментари граматички и правописно исправно написани. Коментаре писане великим словима нећемо објављивати. Задржавамо право избора и краћења коментара који ће бити објављени. Коментаре који се односе на уређивачку политику можете послати на адресу webdesk@rts.rs. Поља обележена звездицом обавезно попуните.