A gépi tanulás fejlődése alkalmat ad arra is, hogy újféle szórakozási módokat próbáljunk ki, például képzeletbeli pizzákról generáljunk képeket, vagy akcióhősök szájmozgását hozzuk összhangba slágerekkel. Egyes eszközök lehetővé teszik, hogy az „internet népe” a populáris kultúra elemeit korábban soha nem látott formában „remixelje”, kreatív módon engedje el a fantáziáját.
Most éppen az OpenAI DALL-E nyelvi modelljének „házilag” újraalkotott változata a legújabb online szenzáció.
Boris Dayma, amerikai gépitanulás-konzultáns tavaly nyáron készítette el, az először DALL-E Miniként ismert, néhány frissítést követően, idén júniusban virálissá vált Craiyon rendszerét. A mostani ráncfelvarrásokkal drasztikusan nőtt az outputok minősége.
Dayma finomhangolt egy előre begyakoroltatott VQGAN kódoló-dekódolót, hogy újraalkossa a bemeneti képeket, és megtévessze a GAN (generatív ellenséges hálózat) folyamatosan kritizáló részét, azaz valódi képekként osztályozza őket.
Ezt követően egy másik ideghálót (BART) tanított be, hogy a kapcsolódó VQGAN képekhez passzoló tokenek sorozatát hozza létre. Nyilvános adatbázisok 30 millió képén gyakorolt, az adatbázisokat átszűrték – eltüntették az erőszakos és az erotikus képeket.
A bemeneti szövegek alapján BART kódolója token-sorozatot hoz létre, a dekóder pedig a sikeres eloszlásukat prognosztizálja, és az alapján a háló a lehetséges képek többféle reprezentációjával áll elő.
VQGAN a reprezentációk alapján alkot képeket, amelyeket a képosztályozó CLIP aszerint rangsorol, hogy mennyire felelnek meg a szövegnek, majd meghagyja a legjobb kilencet, ők az output.
Craiyon ma kb. 50 ezer képet készít felhasználói kérésre, ami annak köszönhető, hogy fotorealisztikus mashupokat („remixeket”) tud létrehozni: Pokémon-karaktereket, jéghorgász Darth Vadert és hasonlókat. Kép és szöveg illeszkedik egymáshoz.
Az OpenAI többször megerősítette, hogy ellenőrzi a DALL-E modellhez való hozzáférést, mert tart attól, hogy az MI-t alantas célokra is használhatják. A Craiyon bíztató ellenpélda.