CLIP Art: humán művészek és mesterséges ideghálók együttműködése

2021. szeptember 23. - ferenck

Képzőművészet és mesterséges intelligencia románca nem újkeletű, és az utóbbi idők eseményei, fejlesztései alapján egyértelmű, hogy a trend folytatódik, a szó szoros értelmében is mélyül az együttműködés. Kreatív mérnökök ugyanis egyre több mélytanulás (deep learning) rendszerrel ismertetik meg a művészeteket, a rendszerek összekombinálása pedig szintlépéshez vezethet.

Kutatók, hackerek és művészek legújabban az előre begyakoroltatott (az OpenAI által fejlesztett) CLIP képosztályozó és generatív ellenséges hálózatok (generative adversarial network, GAN) együttes használatával készítenek alkotásokat.

A CLIP-nek – az OpenAI januárban tette közkinccsé a kódját – szöveges listát adunk azokról a képosztályokról, amelyeket szeretnénk, ha felismerne. A modell a legvalószínűbb csoportokat hozza ki eredményként.

Művészek szintén szöveges leírást adnak neki arról, hogy hogyan képzelik el alkotásukat. CLIP-nek a szöveget képekhez társító adottságát kihasználva, irányítanak GAN-okat.

Egy kaliforniai művészközösség közreműködésével a Google létrehozta a CLIP-et különféle GAN-okkal összekötő Collab Notebooks rendszert. A felhasználó begépel egy mondatot, megad néhány paramétert, és kiválaszt egy GAN-t.

Mihelyst a GAN generált egy képet, CLIP pontozza, hogy mennyire kapcsolódik az eredeti mondathoz. A Collab-kód folyamatos iterációkkal addig javít a GAN hiperparaméterein, amíg a kimenet magasabb pontszámot ér el. A képgenerálás és a javítás ciklusa pedig addig ismétlődik, amíg az eredmény megegyezik a felhasználó által megadott küszöbértékkel, vagy esetleg jobb annál.

A különböző GAN-ok különböző módon kezelik a vizuális karakterjegyeket. A BigGAN például az impresszionistább, a VQ-GAN a kubistább stílust részesíti előnyben. Egy-egy nagyon speciális, mondjuk, valamilyen játékra utaló kifejezés megadásával drasztikusan javulhat a képminőség.

A CLIP-et osztályozásra és nem társalkotásra, míg a GAN-okat ismert képek változatainak elkészítésére találták ki. Összetársításuk megmutatja, kreatív impulzusokra milyen művészi eredményekre képesek. Valószínűleg fejlesztőiket is meglepik velük.

A következő lépés vajon az lesz, hogy egy mesterséges idegháló adja meg az általa elképzelt alkotás paramétereit egy másik mesterséges ideghálónak, majd az utóbbi egy harmadikkal közösen megalkotja az eredeti ötletnél sokkal jobb és kifejezőbb képet?