Hogyan várják boldog zöldségek a vacsorát?

2022. szeptember 15. - ferenck

Hogyan generáljunk szuperszámítógép nélkül, közönséges grafikus kártyával másodpercek alatt szövegből képet, például hogyan „várják boldog zöldségek a vacsorát?”

A kérdés kicsit sci-finek (másrészt bugyutának) hangzik, pedig nem az, mert a Müncheni Ludwig-Maximilian Egyetem (LMU) Stable Diffusion mesterségesintelligencia-modellje képes rá (és a vacsoraváró boldog zöldségekről is tud képet alkotni, lásd a mellékelt ábrát).

Az algoritmust a felsőoktatási intézmény Gépi Látás és Tanulás Csoportja fejlesztette.

„Speciális művészi tehetséggel, számítógépes ismeretekkel és különleges hardverrel nem rendelkező laikusok számára is hatékony eszköz a számítógépes képgenerálást utasítás alapján megvalósító új modell. A modell megszünteti a hétköznapi halandók önkifejezési korlátjait” – jelentette ki a fejlesztést vezető Björn Ommer professzor.

Kívülállók mellett természetesen valódi művészek is hasznát vehetik, mert új ötleteiket pillanatok alatt képvázlatokká alakíthatják. A kutatók meg vannak győződve, hogy ezek az új, mesterségesintelligencia-alapú képalkotó eszközök kitágítják a hagyományos kreatív szoftverek, például a Photoshop adta lehetőségeket.

Ha a Photoshop jelentette a képalkotásban azt, mint a szövegszerkesztő a kézzel és írógéppel írásról a számítógépesre történő váltásban, akkor az egyre több szövegről-képre (text-to-image) alapú MI (OpenAI, Google stb.) a vizuális önkifejezés új szintjét hozza el.

Az LMU projektjét a Stability.AI startup segítette, a modellt az ő szervereiken trenírozták. Ommer elmondta, hogy a jóval több számítási kapacitás és gyakorlópélda tették megoldásukat a jelenlegi egyik legerősebb képszintézis-algoritmussá.

A modell – és az utóbbi évek több hasonló algoritmusának – specialitása, hogy hagyományos gépen is jól működik. Néhány éve még teljesen más volt a helyzet…

Ehhez annyi kellett, hogy a több milliárd gyakorlókép lényegét az MI néhány gigabájtos modellbe tömörítse. Egy ilyen algoritmus tudja, miből áll az autó, mik egy művészi stílus jellemzői stb. Ezeket a kulcstényezőket megtanulva, képes további példákat generálni.

„Nagyjából ugyanúgy, mint ahogy egy festőtanuló egy öreg mester workshopján elsajátítja, hogyan fessen a mester stílusában” – magyarázza Ommer.

A kutatók célja, hogy a számítógépek megtanuljanak látni, értsék egy adott kép tartalmát. Modelljük komoly előrelépés ebbe az irányba.

A modell a CreativeML, Open RAIL-M licenc alatt szabadon hozzáférhető.