A Meta (Facebook) bő egy hete mutatta be a rövid szöveges leírásból (promptból) nagyon rövid videót generáló Make-A-Video mesterségesintelligencia-modellt. Egy héttel később a Google tovább lépett: Phenaki nevű rendszere néhány mondatból tetszőleges hosszúságú, komplett narratívát hoz létre.
A gépitanulás-közösségnek nincs hosszú videós és az időhöz rögzített feliratokat tartalmazó nagy adatsora. Ezért egyáltalán nem evidens, hogyan gyakoroltassanak modelleket hosszabb mozgóképek generálására.
Ugyanakkor rengeteg a szöveg-kép pár. Ha a képeket egyetlen képkockaként kezeljük, és szöveges felirattal kiegészített rövid videók relatíve kisebb adatsoraival összekombináljuk őket, a rendszer betanítható rövid videók készítésére.
Ha utána a rendszerbe új szöveget és az utolsó generált képkockákat betápláljuk, meghosszabbíthatjuk a videót. Megismételve ezt a folyamatot, hosszú és komplex mozgókép-anyagok hozhatók létre. Ez azért is figyelemre méltó, mert a modellt rövid, egyszerű anyagokon gyakoroltattuk.
Phenaki kódolót használ videó-beágyazásokhoz, nyelvi modell végzi a szöveg-beágyazásokat, a szöveges és a videó-beágyazásokat kétirányú transzformer alakítja új videó-beágyazásokká, az így szintetizált videókat pedig dekódoló változtatja pixelekké.
A teljes méretű Phenaki 1,8 milliárd paramétert tartalmaz. A rendszer „szövegből videót” teljesítményének kvantitatív kiértékeléséhez a Google kutatói 900 millió paraméteres, az adatai felén gyakoroltatott változatot hasonlítottak össze egy 3,3 millió szöveg-kép, 41250 szöveg-videó páron és egymillió három másodperces videón trenírozott, 900 millió paraméteres, vizuális adatokat generáló, módosító NUWA rendszerrel. Utóbbit 160 ezer tíz másodperces videón finomhangolták.
A Phenaki kicsinyített változatát nem finomhangolták, de még így is jobban teljesített, mint a NUWA. A modell az output hosszának és a narratíva komplexitásának növelésére is képes.
A Phenaki és a Make-A-Video külön-külön és együtt is forradalmasíthatják a filmkészítést.