Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Szintet lép a Google videót készítő mesterséges intelligenciája?

2022. október 18. - ferenck

A Meta (Facebook) bő egy hete mutatta be a rövid szöveges leírásból (promptból) nagyon rövid videót generáló Make-A-Video mesterségesintelligencia-modellt. Egy héttel később a Google tovább lépett: Phenaki nevű rendszere néhány mondatból tetszőleges hosszúságú, komplett narratívát hoz létre.

A gépitanulás-közösségnek nincs hosszú videós és az időhöz rögzített feliratokat tartalmazó nagy adatsora. Ezért egyáltalán nem evidens, hogyan gyakoroltassanak modelleket hosszabb mozgóképek generálására.

phenaki.jpg

Ugyanakkor rengeteg a szöveg-kép pár. Ha a képeket egyetlen képkockaként kezeljük, és szöveges felirattal kiegészített rövid videók relatíve kisebb adatsoraival összekombináljuk őket, a rendszer betanítható rövid videók készítésére.

Ha utána a rendszerbe új szöveget és az utolsó generált képkockákat betápláljuk, meghosszabbíthatjuk a videót. Megismételve ezt a folyamatot, hosszú és komplex mozgókép-anyagok hozhatók létre. Ez azért is figyelemre méltó, mert a modellt rövid, egyszerű anyagokon gyakoroltattuk.

phenaki0.jpg

Phenaki kódolót használ videó-beágyazásokhoz, nyelvi modell végzi a szöveg-beágyazásokat, a szöveges és a videó-beágyazásokat kétirányú transzformer alakítja új videó-beágyazásokká, az így szintetizált videókat pedig dekódoló változtatja pixelekké.

phenaki1.jpg

A teljes méretű Phenaki 1,8 milliárd paramétert tartalmaz. A rendszer „szövegből videót” teljesítményének kvantitatív kiértékeléséhez a Google kutatói 900 millió paraméteres, az adatai felén gyakoroltatott változatot hasonlítottak össze egy 3,3 millió szöveg-kép, 41250 szöveg-videó páron és egymillió három másodperces videón trenírozott, 900 millió paraméteres, vizuális adatokat generáló, módosító NUWA rendszerrel. Utóbbit 160 ezer tíz másodperces videón finomhangolták.

phenaki2.jpg

A Phenaki kicsinyített változatát nem finomhangolták, de még így is jobban teljesített, mint a NUWA. A modell az output hosszának és a narratíva komplexitásának növelésére is képes.

A Phenaki és a Make-A-Video külön-külön és együtt is forradalmasíthatják a filmkészítést.

A bejegyzés trackback címe:

https://jelenbolajovobe.blog.hu/api/trackback/id/tr4117954552
süti beállítások módosítása