Gyorsabb és olcsóbb videókészítés

2024. november 07. - ferenck

A videógenerálás, az egyik leggyorsabban fejlődő infokom technológia problémája, hogy óriási számítási kapacitások kellenek hozzá. Ha meg lehetne oldani kevesebb számítással, jelentősen bővülne a felhasználói kör.

Hollywood egyre jobban érdeklődik a technológia iránt, stúdiók gondolkoznak, hogy beépítsék a gyártást megelőző és a posztprodukciós munkákba.

Kínai kutatók innovatív módszert találtak ki a probléma megoldására. A kódot és az előre gyakoroltatott modellt nem-kereskedelmi célokra és az éves egymillió dollárnál nem többet kereső cégek számára ingyen rendelkezésre bocsátják.

Azok a modellek, amelyek a zaj több lépésben történő eltávolításával generálnak kimeneteket, általában a zaj beágyazásból való eltávolítását tanulják meg tréning közben. A beágyazás kisebb mintájával indulnak, amelyet lépésről lépésre az eredeti mérethez közelítenek. Így a gyakorlás és a következtetés során kevesebb feldolgozást kell végezniük. A kínai kutatók modellje is így működik.

SD3 Medium képgenerátorral, kép-kódolóval és két szövegkódolóval dolgoztak. A képkódolót videóképkockák képeinek és szegmenseinek újraalkotására, az SD3 Mediumot a zaj nyolc videóképkockás beágyazásból való eltávolítására gyakoroltatták be. Szöveges és korábbi képkocka-szekvenciák beágyazásait adták meg neki.

Kétféleképpen változtattak a bevett zajeltávolítási módszeren: térben és időben. Az elsőnél a beágyazás növelésével, az eltávolítottak utáni több zaj hozzáadásával. A lépések addig ismétlődnek, amíg a teljes méretű beágyazás zajmentes nem lesz. A másodiknál a beágyazás méretének folyamatos csökkentésével, korábbi képkockák hozzáadásával dolgoztak.

A szövegkódolók promptok alapján szöveg-beágyazásokat generálnak, amelyekből a zajokat eltávolítva, az SD3 Medium végül videót generál.

A modell jól teljesített a teszteken: a generált anyag esztétikailag, a mozgásokat és a promptokhoz való „hűséget” illetően más nyílt forrású modelleknél magasabb pontszámot ért el. Nvidia A100 GPU-n futtatva 241 hosszú képkockából 20700 óra alatt tanult meg videót készíteni. Egy másik jól teljesítő modell a gyorsabb Nvidia H100-on 37800 óra alatt tanult meg 97 képkockát létrehozni.

A különbség számottevő.