OpenAI predstavio Soru – alat koji pravi video-klip na osnovu zadatog teksta

Novi generativni model proizvođača najpoznatijeg četbota ChatGPT-ja, američke kompanije OpenAI, pruža mogućnost da na osnovu uputstava o temi i stilu koje zadaje korisnik „simulira fizički svet u pokretu“ do jednog minuta.

OpenAI представио Сору – алат који прави видео-клип на основу задатог текста

OpenAI je predstavio alat koji može da generiše video-snimke iz tekstualnih upita, poznatijih kao promptovi. Novi model, nazvan Sora po japanskoj reči za nebo, može da proizvede realistične snimke dužine do jednog minuta koji se pridržavaju korisničkih uputstava o temi i stilu.

Sudeći prema informacijama objavljenih u blogu kompanije, model takođe može da kreira video-klip na osnovu slike ili da proširi postojeće snimke novim materijalom.

„Učimo veštačku inteligenciju da razume i simulira fizički svet u pokretu, sa ciljem da obučavamo modele koji pomažu ljudima da reše probleme koji zahtevaju interakciju u stvarnom svetu“, navodi se u opisu novog generativnog modela.

Jedan video-klip koji je među primerima kojim se predstavljaju mogućnosti Sore bio je zasnovan na upitu: „Trejler filma koji prikazuje avanture 30-godišnjeg svemirca koji nosi crvenu vunenu, pletenu motociklističku kacigu, plavo nebo, slanište, filmski stil, sniman na filmu od 35 mm, žive boje”.

Pristup Sori otvoren je za sada za samo nekoliko istraživača i autora video-sadržaja. Stručnjaci bi trebalo da testiraju Soru kako bi se utvrdilo da li je alat podložan zaobilaženju pravila kompanije OpenAI, kojim se zabranjuje „ekstremno nasilje, seksualni sadržaj, prizori mržnje, sličnost sa slavnim ličnostima ili IP adrese“.

Dozvoljen je samo ograničen pristup istraživačima, vizuelnim umetnicima i filmskim stvaraocima, iako je izvršni direktor kompanije Sem Altman odgovorio na upite korisnika na društenoj mreži Iks (nekadašnjem Tviteru) video-klipovima za koje je rekao da ih je napravila Sora. Video-snimci imaju žig koji pokazuje da ih je napravila veštačka inteligencija.

Američka kompanija predstavila je 2021. godine model za generisanje slika Dall-E, a u novembru 2022. napravila haos pružajući mogućnost otvorenog isprobavanja modela generativnog pretreniranog jezičkog transformatora ChatGPT-ja, koji je ubrzo prikupio 100 miliona korisnika.

Trka modela za generisanje video-materijala je počela

Druge kompanije koje rade na modelima zasnovanim na veštačkoj inteligenciji izašle su već na tržite sa alatima za generisanje video-zapisa, iako su ti modeli bili u stanju da proizvedu samo nekoliko sekundi snimaka koji često nemaju mnogo veze sa upitima.

Internet giganti „Gugl“ i „Meta“ potvrdili su da su u procesu razvoja generativnih video-alata, iako ih nisu predstavili javnosti.

U sredu su iz OpenAI-ja najavili eksperimentalno pojačavanje memorije četbota ChatGPT kako bi mogao da zapamti više ćaskanja sa svojim korisnicima.

OpenAI nije precizirao koliko je snimaka korišćeno za obuku Sore ili odakle potiču video-snimci. Predstavnici kompanije rekli su za Njujork tajms da baza snimaka upotrebljenih za treniranje modela sadrži video-klipove koji su bili javno dostupni i licencirani od strane njihovih vlasnika autorska prava.

Kompanija je više puta tužena zbog navodnog kršenja autorskih prava tokom obuke svojih generativnih alata zasnovanih na VI, koji koriste ogromne količine materijala sakupljenog sa interneta i imitiraju slike ili tekst sadržane u tim skupovima podataka.