Mik a legjobb generatív MI-modellek a képzőművészetben és a designban?

2024. május 21. - ferenck

A generatív mesterségesintelligencia-eszközök közül a képalkotó modellek az elsők között mozgatták meg a nagyközönség fantáziáját. A technológia és a piac fejlődésével kuriózumból hasznos és hatékony alkalmazásokká váltak. Ma már bejáratott művészeti és designplatformok integrálták a generatív MI-t. Céljuk nem az emberi kreativitás helyettesítése, hanem növelése. Rengeteg van belőlük, nehéz eligazodni közöttük. Melyek mégis a legjobbak? A tájékozódásban Bernard Marr jövőkutató friss anyaga segít.

Az OpenAI DALL-E modellje az egyik legmasszívabb és legrugalmasabb. Részletes promptokból pontos, szinte fotorealisztikus képeket, meglévő képekből új változatokat generál. A Microsoft a Bingbe, a Co-Pilotba és a Designerbe integrálta, de saját alkalmazásprogramozói felületén (API) is elérhető, azaz fejlesztők képgenerátort építhetnek saját alkalmazásaikba.

Az amerikai Runway LM-mel együttműködő müncheni Ludwig Maximilian Egyetemen fejlesztett Stable Diffusion volt az egyik első képgenerátor MI. Egyetlen promptból számos képiterációt képes létrehozni, meglévő képeket módosít, ad hozzájuk új elemeket. Mivel nyílt forrású, bárki készíthet, futtathat lokálisan a hardverén saját változatokat. Filmektől, zenei videókig és televíziós műsorokig, sok területen használják, használatához viszont – rugalmassága miatt – nem árt némi technikai tudás.

A Midjourney inkább művészeknek, mint designereknek készült. Az output gyakran különleges hangulatú, álomszerű, fantasztikumba hajló, a szárnyaló fantázia terméke. Annyiban különbözik a többi modelltől, hogy nem webes interfészen, API-n vagy appon, hanem a Discord üzenetküldő platformon keresztül kommunikálunk vele. Pont a Discord miatt erős közösség épült köréje.

Az Adobe Firefly az Adobe Creative Cloud csomag része, olyan piacvezető programokat egészít ki generatív képességekkel, mint a Photoshop, az Illustrator és az Adobe Express. A Firefly-ban készített képek, tervek automatikusan integrálhatók profi design-munkafolyamatokba. Mivel a Firefly elkötelezett a transzparens és etikus MI mellett, a modellek gyakoroltatása főként az Adobe stockfotó-adatbázisában lévő, tehát jogtiszta képeken történik.

A népszerű felhőalapú Canva designplatformot marketinganyagok, email-sablonok és közösségimédia-eszközök alkotására használják. 2024-től, a Stable Diffusion egy „személyre szabott” változata jóvoltából generatív funkciókkal bővült.

A Google Imagenje nagyon jó eredményeket szokott elérni a „milyen közel van a képkimenet a felhasználó szöveges promptjához” megmérettetéseken. A Gemini Pro chatboton keresztül használható, de Európában egyelőre nem elérhető. Az Imagen-modellhez való hozzáférést az egyszerűbb Image FX (egy másik Google-eszköz) teszi lehetővé.

Fontos modellek még: Autodesk Fusion, Craiyon, DaVinci, Freepik, Getty Images AI (a Getty Images adattárából, Nvidia technológiával), az eredetileg csak írásra szánt Jasper, Let’s Enhance, NightCafe, Shutterstock AI (a stockfotó-szolgáltató anyagaiból), Wombo Dream (iOS-app).