Egyre jobbak a nyílt forrású videó-előállító modellek

2025. január 03. - ferenck

A képgenerálásban gyorsan zajlanak az események, egyik kutatás a másikat követi, és az eredmények magukért beszélnek. Ugyanez nem mondható el a videóról, ahol a fejlődés jóval lassabb. Az egyik ok a feldolgozás költsége. Mozgóképekkel mindig jóval nagyobbak a kiadások.

Szerencsére nő az előzetesen betanított, nyílt forrású videógenerátorok száma. Ha több van belőlük, az elérhetőség is nagyobb, többen férnek hozzá a technológiához.

A nagyobb hozzáféréssel a kutatóknak is könnyebb, mert nem kell sürgősen modelleket gyakoroltatniuk, és így több idejük marad finomhangolással és más gyakorlás utáni dolgokkal foglalkozniuk, hogy a modellek speciális feladatok elvégzésében és újabb applikációkban is jól teljesítsenek.

Az OpenAI februárban jelentette be a csak decemberben nyilvánossá tett Sorát. A modell videógenerátorok új hullámát indította el. Veo (Google), Movie Gen (Meta), Gen-3 Alpha (Runway), Stable Video Diffusion (Stability AI). Nyílt forrású alternatívák hiába tűnnek fel, általában hamar kiderül róluk, hogy nem ugyanaz a minőség, mint a kereskedelmi célú generátorok, nem tudják tartani velük a versenyt.

A kínai Tencent 2024 végén tette nyilvánossá a Hunyuan Videót. Teljesítménye hasonló a kommersz termékekhez. Nyílt kód, nyílt súlyok – havi közel százmillió felhasználó, akiknek jelentős része az Egyesült Királyságban, az Európai Unióban és Dél-Koreában él.

A rendszer konvolúciós kódolóból és dekódolóból, két szöveges kódolóból és egy transzformerből áll. Lépésről lépésre gyakoroltatták; a kódoló/dekódolóval kezdték, majd a komplett modellel folytatták. A nyílt forráskód ellenére, a finomhangolás előtt használt adatsor nem nyilvános.

A Hunyuan Video jól teljesít teszteken, a bírák jobban szeretik a rendszert, mint a riválisait. A nyílt forráskóddal a Tencent hozzájárul a videógenerálásban végzett kutatás-fejlesztésekhez. Külön érdekesség, hogy egy kínai nagyvállalat segít be a nyílt forrású kezdeményezéseknek, közösségeknek.