Hogyan generáljunk szuperszámítógép nélkül, közönséges grafikus kártyával másodpercek alatt szövegből képet, például hogyan „várják boldog zöldségek a vacsorát?”
A kérdés kicsit sci-finek (másrészt bugyutának) hangzik, pedig nem az, mert a Müncheni Ludwig-Maximilian Egyetem (LMU) Stable Diffusion mesterségesintelligencia-modellje képes rá (és a vacsoraváró boldog zöldségekről is tud képet alkotni, lásd a mellékelt ábrát).
Az algoritmust a felsőoktatási intézmény Gépi Látás és Tanulás Csoportja fejlesztette.
„Speciális művészi tehetséggel, számítógépes ismeretekkel és különleges hardverrel nem rendelkező laikusok számára is hatékony eszköz a számítógépes képgenerálást utasítás alapján megvalósító új modell. A modell megszünteti a hétköznapi halandók önkifejezési korlátjait” – jelentette ki a fejlesztést vezető Björn Ommer professzor.
Kívülállók mellett természetesen valódi művészek is hasznát vehetik, mert új ötleteiket pillanatok alatt képvázlatokká alakíthatják. A kutatók meg vannak győződve, hogy ezek az új, mesterségesintelligencia-alapú képalkotó eszközök kitágítják a hagyományos kreatív szoftverek, például a Photoshop adta lehetőségeket.
Ha a Photoshop jelentette a képalkotásban azt, mint a szövegszerkesztő a kézzel és írógéppel írásról a számítógépesre történő váltásban, akkor az egyre több szövegről-képre (text-to-image) alapú MI (OpenAI, Google stb.) a vizuális önkifejezés új szintjét hozza el.
Az LMU projektjét a Stability.AI startup segítette, a modellt az ő szervereiken trenírozták. Ommer elmondta, hogy a jóval több számítási kapacitás és gyakorlópélda tették megoldásukat a jelenlegi egyik legerősebb képszintézis-algoritmussá.
A modell – és az utóbbi évek több hasonló algoritmusának – specialitása, hogy hagyományos gépen is jól működik. Néhány éve még teljesen más volt a helyzet…
Ehhez annyi kellett, hogy a több milliárd gyakorlókép lényegét az MI néhány gigabájtos modellbe tömörítse. Egy ilyen algoritmus tudja, miből áll az autó, mik egy művészi stílus jellemzői stb. Ezeket a kulcstényezőket megtanulva, képes további példákat generálni.
„Nagyjából ugyanúgy, mint ahogy egy festőtanuló egy öreg mester workshopján elsajátítja, hogyan fessen a mester stílusában” – magyarázza Ommer.
A kutatók célja, hogy a számítógépek megtanuljanak látni, értsék egy adott kép tartalmát. Modelljük komoly előrelépés ebbe az irányba.
A modell a CreativeML, Open RAIL-M licenc alatt szabadon hozzáférhető.