Szövegből videót alkotó mesterséges intelligenciát fejlesztette a Meta

2022. október 04. - ferenck

A Meta (azaz a Facebook) bemutatta Make-A-Video („Csinálj videót”) nevű, rövid szöveges utasítások (promptok) alapján rövid videókat generáló mesterségesintelligencia-rendszerét. Begépeljük például, hogy „szuperhős- ruhába, vörös köpenybe öltözött kutya átrepül az égen” mondatot, mire az MI öt másodperces, a szöveget élethűen visszaadó, pszichedelikus home movie-kat idéző videóval áll elő.

A videók egyelőre elég nyersek, viszont látható belőlük, mi az idei évet meghatározó, szövegből képet létrehozó fejlesztések következő lépése – állóképek után itt vannak már a mozgóképek is.

A Meta rendszeréhez egyelőre nem férhetünk hozzá, viszont egyértelmű jel a többi fejlesztőnek, így várhatóan hamarosan mások is előállnak hasonló rendszerekkel, alkalmazásokkal.

Ezekhez a modellekhez masszív számítási kapacitások kellenek, sokkal nagyobbak, mint a „szövegből állókép” megoldásokhoz. Rövid videókhoz többszáz kép szükséges, tehát a fejlesztésüket egyelőre csak nagy techvállalatok engedhetik meg maguknak. Mivel nincsenek csúcsminőségű videókat szövegekkel összekapcsoló nagy adatsorok, begyakoroltatásuk komoly nehézségekbe ütközik.

A Meta három nyílt forrású kép- és videó-adatsorból kombinálta össze a modell gyakorlásához az adatokat. A felcímkézett állóképekből álló szabványos szöveg-kép adatsorokból az MI megtanulta az objektumok nevét, és hogy hogyan néznek ki.

A videó-adatbázis a tanulás más aspektusában segítette – megismerte, hogy ezek az objektumok hogyan mozognak a világban. (Legalábbis azt, hogy feltételezések alapján, miként hivatottak mozogni…)

A Make-A-Video a két megközelítés kombinációja. Szakértők szerint ígéretes, a modell érzékeli a mélységet és a világítást, a „kamera” 3D-s objektumokat is tud rögzíteni. A részletek és a mozgások is korrektek, de mindezekkel együtt bőven akad finomítani való az MI-n, például objektumok közötti komplex interakciók megjelenítése nyilván nem máról holnapra fog hibátlanra sikerülni.

A Meta elmondta, hogy a technológiával bővülnek a művészek és a kreatív szakmákban dolgozók lehetőségei. Nyilvánvalóan a dezinformáció terjesztésében, kamu videók (deepfakes) generálásában szintén komoly szerepet játszhat egy ilyen MI.