Új mesterségesintelligencia-modellt mutatott be az Nvidia

2024. december 05. - ferenck

Lassan nem telik el úgy hét, de talán nap sem, hogy valamelyik nagy fejlesztővállalat ne állna elő újabb mesterségesintelligencia-termékkel. Legutóbb az Nvidia tette, friss modellje zenét és audióanyagokat, új hangokat generál. A technológiával zenekészítőket, film- és videójáték-producereket céloznak majd meg.

Az MI-rendszerek fejlesztéséhez szolgáltatott chipek és szoftverek világelső beszállítója ugyanakkor azt is elmondta, hogy nem áll szándékában azonnal piacra dobni a Fugatto (Foundational Generative Audio Transformer Opus 1) nevű új technológiát.

A Fugatto csatlakozik az OpenAI, a Meta és a Runway startup szöveges prompt alapján audió- vagy videóanyagot generáló megoldásaihoz. A hangeffektusokat és zenéket szöveges leírás alapján készíti. Teljesen új hangjai között olyat is találunk, hogy egy trombita úgy szól, mintha kutya ugatna.

Abban különbözik más MI-technológiáktól, hogy létező audióanyagokat képes módosítani, például zongorafutamot emberi énekké alakít át, beszélt szövegben megváltoztatja a kiejtést és a hangulatot.

„A szintetikus audió elmúlt ötven évére gondolva, elmondhatjuk, hogy a zene a komputerek és a szintetizátorok miatt lett más mára. A generatív MI új lehetőségeket visz a zenébe, videójátékokba, alkotni akaró átlagemberek életébe” – jelentette ki az Nvidia alkalmazott mélytanulás kutatási csoportjának igazgatóhelyettese, Bryan Catanzaro.

Vállalatok, mint az OpenAI hollywoodi stúdiókkal tárgyalnak az MI szórakoztatóipari felhasználásáról, a techvilág és a film-Mekka közötti kapcsolat azonban különösen azt követően feszült, hogy Scarlett Johansson hangja utánzásával vádolta meg az OpenAI-t.

Az Nvidia modelljét nyílt forrású adatokon gyakoroltatták, és a cégen belül valóban nincs döntés a nyilvános közzététel időpontjáról, formájáról. Tudják, hogy bármely generatív technológiában benne van a kockázat: a felhasználók olyan dolgokat készítenek vele, amiket a fejlesztőcég nem szeretne. Ezért kell óvatosnak lenniük, Fugatto ezért nem nyilvános még – hangsúlyozza Catanzaro.

Generatív MI-modellek fejlesztőinek ki kell dolgozniuk, hogyan előzzék meg a technológiával való visszaéléseket, mint például valótlan információk előállítása, vagy szellemi tulajdonjogok védett karakterek generálásával történő megsértése.

Az OpenAI és a Meta audió- és videógenerátorairól sem tudjuk még, hogy mikor teszik közkinccsé őket.