2022 a szintetikus képek éve volt

2022. december 29. - ferenck

2022 a mesterségesintelligencia-történelem egyik szó szerint is leglátványosabb éve volt. Szinte emberi szintű szövegeket, képeket és kódokat generáló rendszereket ismertünk meg. Ezek a rendszerek komoly kérdéseket vetnek fel a kreativitás jövőjével kapcsolatban.

Vegyi és fizikai folyamatokat megfejtő modellek tudományos felfedezésekhez vezettek, míg a kormányok igyekeznek egyre inkább ellenőrzés alatt tartani az ezeket az újításokat lehetővé tevő mikroprocesszorokat.

A sok újdonság közül is kiemelkednek a 2022-es innováció legfőbb terepét jelentő képtechnológiák. Az MI által készített képek virálissá váltak, komoly vitákat kavartak, és még több befektetői pénzcsapot nyitottak meg.

A szövegből képet generáló (diffúziós) rendszerek új nemzedéke rengeteg kísérletre inspirált felhasználót és fejlesztőt, néhány szavas szöveges leírásokból (promptokból) döbbenetes művészi erejű, fotorealisztikus fantáziaképek, alkotások születtek. Vállalatok gyorsan le is csaptak a technológiára, az MI-s képgenerálást alkotó/editáló szoftvereikbe integrálták.

Könnyen kezelhető felhasználói felületük, szórakoztató outputjuk, nyílt „természetük” miatt 2022-ben ezek a képalkotó modellek váltak az MI nyilvános arcává.

A Microsoft által az exkluzív kereskedelmi jogok ellenében anyagilag támogatott OpenAI DALL.E 2-je áprilisban jött ki, másfél millióan bétatesztelték, szeptemberben tették széles körben hozzáférhetővé. A redmondi cég AI, mint szolgáltatást (AI-as-a-Service) integrálta Azure platformjába.

Júliusban a viszonylag egyszerűbb Craiyon képei árasztották el a közösségi tereket, majd jött a Stability AI nyílt forrású Stable Diffusion modellje, novemberben pedig már a több mint százmillió dollár friss befektetői tőkével jutalmazott 2.0 változat. Az Adobe, a Getty Images és a Shutterstock saját termékeikbe és szolgáltatásaikba integráltak képgeneráló modelleket.

Mivel ezek a rendszerek a megadott promptok miatt drasztikusan különböző outputokat hoznak létre, többen rájöttek a szöveg alapú utasítások kidolgozásában rejlő üzleti potenciálra. A PromptBase online piacteret is nyitott erre a célra.

A sikernek megvannak a hátulütői is. Mivel a gyakorlóképeket a világhálóról gyűjtik össze a fejlesztők, bőven akadnak közöttük elfogultak, sőt, sértők is. A művészi avatárokat készítő (egyébként sikeres) Lensa AI fotószerkesztő app több felhasználója, elsősorban nők a túlzottan „szexualizáló” képekre panaszkodtak. Az ArtStation online művészi közösség – a szellemi tulajdon elsajátítását megakadályozandó – saját szöveg-text rendszert dolgozott ki, amelyet viszont sok művész, a nehezen kidolgozott stílusokat pillanatokon belül lemásoló program miatt bojkottál.

2023-ban a trend folytatása várható, állóképek után a mozgóképeken és tárgyakon lesz a sor, ezt vetítik előre a Google és a Meta szövegből videót generáló modelljei, illetve az OpenAI szövegből 3D objektumokat varázsoló rendszere.