Metini inženjeri uspeli da generišu video-zapis na osnovu nekoliko reči

Veštačka inteligencija postaje sve bolja i bolja u generisanju slike kao odgovor na nekoliko reči. Istraživači kompanije „Meta“ otišli su korak dalje i uspeli da veštačku inteligenciju iskoriste za pravljenje video-zapisa na tekstualnu komandu.

Izvršni direktor kompanije „Meta“, Mark Zakerberg, objavio je na svom profilu na Fejsbuku istraživanje pod nazivom Make-A-Video, uz video-klip od 20 sekundi u kome se vidi kako su istraživači „Mete“ proizveli video-zapise (doduše veoma kratke) na osnovu nekoliko tekstualnih komandi.

Pisane poruke glase: „Plišani medved koji slika autoportret“, „Svemirski brod koji sleće na Mars“, „Mladunče lenjivca sa pletenim šeširom pokušava da pronađe laptop“ i „Robot koji surfuje na talasima“.

Video-snimci za svaku poruku su dugi samo nekoliko sekundi i uglavnom demonstriraju šta je zahtevano (sa izuzetkom mladunčeta lenjivca, koje ne liči mnogo na stvarno stvorenje). Snimci su u prilično niskoj rezoluciji i slika se trese.

I pored svih mana, ovi snimci demonstriraju novi pravac u kojem istraživanje veštačke inteligencije ide jer sistemi postaju sve bolji u generisanju slika na osnovu reči. Međutim, ako ova tehnologija na kraju bude usavršena i počne da se koristi, to će ponovo izazvati istu zabrinutost kao i kada su se pojavili algoritmi za pretvaranje teksta u sliku, pre svega strah da bi se mogla koristiti za širenje dezinformacija putem video-matrijala.

Na veb-stranici Make-A-Video mogu se videti pomenuti kratki klipovi, ali i drugi od kojih neki izgledaju prilično realistično, kao na primer video-klip napravljen na komandu „Riba klovn pliva kroz koralni greben“ ili „Mladi par šeta po jakoj kiši“.

U svojoj objavi na Fejsbuku, Zakerberg je istakao koliko je teško generisati pokretnu sliku na osnovu nekoliko reči.

„Mnogo je teže napraviti video-klip nego fotografije jer pored pravilnog generisanja svakog piksela, sistem takođe mora da predvidi kako će se oni promeniti", istakao je izvršni direktor „Mete“.

U istraživačkom radu u kome se objašnjava kako funkcioniše ovaj projekat, stoji da veštačka inteligencija koristi model od teksta do slike da bi otkrio kako reči korespondiraju sa slikama i tehniku veštačke inteligencije poznatu kao „učenje bez nadzora“ – u kojoj algoritmi preispituju podatke koji nisu označeni kako bi prepoznali obrasce unutar njega – da pogledaju video-zapise i odrede kako izgleda realistično kretanje.

Kao i kod poznatih, popularnih sistema veštačke inteligencije koji generišu slike iz teksta, istraživači su istakli da je njihov model veštačke inteligencije od teksta do slike „nahranjen“ podacima sa interneta – što znači da je naučio „i verovatno usvojio brojne društvene predrasude, uključujući i one negativne“, stoji u radu.

Napominju da su filtrirali podatke za „nepoželjan sadržaj i toksične reči“, ali pošto skupovi podataka mogu da sadrže više miliona slika i teksta, možda neće biti moguće ukloniti sav takav sadržaj.

Zakerberg je napisao da „Meta“ planira da u budućnosti podeli korisnicima demo projekat Make-A-Video.

Број коментара 1

Пошаљи коментар

Упутство

Коментари који садрже вређање, непристојан говор, непроверене оптужбе, расну и националну мржњу као и нетолеранцију било какве врсте неће бити објављени. Говор мржње је забрањен на овом порталу. Коментари се морају односити на тему чланка. Предност ће имати коментари граматички и правописно исправно написани. Коментаре писане великим словима нећемо објављивати. Задржавамо право избора и краћења коментара који ће бити објављени. Коментаре који се односе на уређивачку политику можете послати на адресу webdesk@rts.rs. Поља обележена звездицом обавезно попуните.