Valódi videókat generál a mesterséges intelligencia?

2024. március 14. - ferenck

Sora, az OpenAI új szövegalapú videógenerátora magasra emelte a lécet részletességben és realizmusban. Korábban egyetlen MI sem érte el ezt a szintet, nem alkottak ennyire meggyőző, csúcsminőségű mozgókép-világot. Magáról a rendszerről, a rendszer felépítéséről viszont keveset tudunk.

Sora kódoló-dekódolót és transzformert használó, zajt videóvá alakító látens diffúziós modell. A rendszert maximum 1920x1080 pixeles és egyperces videókon gyakoroltatták.

Az OpenAI a biztonság kiértékelése miatt külsős kutatókkal ugyan megosztotta a technológiát, kvantitatív részleteket és a korábbi munkákkal való összehasonlítást viszont nem közölt róla. A modellarchitektúrák és a gyakorlómódszerek részletes leírása szintén hiányzik. Egyes eredmények arra engednek következtetni, hogy nemcsak a zaj tokenekről történő eltávolítására, hanem jövőbeli tokenek előrejelzésére és más tokenek közötti tokenek generálására is megtanították az MI-t. A forrásokról és az adatkészletről szintén nincs infó.

Az eredmények elég meggyőzőek ahhoz, hogy feltegyük a kérdést: Sora milyen szinten érti a fizikát, mert a jelenetekben nyilvánvalóan promptok és vágás nélküli részletek is bőven szerepelnek, összességük pedig konzisztens, részletesen kidolgozott anyag. Hibák és folyamatossági problémák persze előfordulnak, de első látásra szinte semmit nem veszünk észre belőlük. Másodszorra, harmadszorra is nehezen.

Eddig láttunk már videókat generáló transzformereket, diffúziós modelleket, képeket generáló diffúziós transzformereket, videógeneráló diffúziós transzformerre viszont Sora az első példa. Szépen szemlélteti, mennyire alkalmasak ezek a modellek mozgókép-készítésre.

De vajon megtanult egy világmodellt? – teszi fel a kérdést Andrew Ng, gépitanulás-szakértő. Megtanulta, hogy előrejelezze a környezet jövőbeli állapotát, megadtak neki egyes történéseket?

Ezt megtanulni nem ugyanaz, mint a környezet pixelekben történő ábrázolási készségének elsajátítása. Ha azt prognosztizáljuk, hogy egy vicc meg fog mosolyogtatni valakit, nagyon nem azonos a mosoly megjelenítésének képességével.

Ha Sora jelenteket vetít a jövőbe, valamit értenie kell a világból. Még nem sokat, de az első lépések nagyon ígéretesek.