Képgenerátorral bővült a ChatGPT

2025. április 08. - ferenck

Az OpenAI közvetlenül a ChatGPT-be integrált képgenerálási lehetőségeket. A ChatGPT Plus, Pro, Team és Free előfizetésekkel hozzáférhető funkció neve Images in ChatGPT, azaz felhasználók már a chatboton belül is létrehozhatnak képeket a GPT-4o-val. Az ingyenes használat ugyanúgy limitált, mint a DALL-E esetében (a DALL-E-3-nál napi három kép generálható fizetés nélkül).

Az új funkció fontos változás a korábbi modellekhez képest, a fejlesztők a GPT-4o-t „omnimodálisnak”, azaz bármilyen fajta adatot, például szöveget, képet, hangot és videót generáló modellnek nevezik.

Az egyik újítás a „kötés”, hogy az MI képgenerátorok milyen jól tartják fenn a korrekt kapcsolatokat attribútumok és objektumok között. Gyenge kötésű modellek például „kék csillag és vörös háromszög” promptra, háromszög nélküli vörös csillaggal állhatnak elő. Több (általában öt-nyolc) dolog renderelésénél gyakran összekeverik a színeket és a formákat. Az új modell tizenöt-hússzal is gond nélkül elboldogul.

A szövegmegjelenítés szinten javult, így könnyebb a képen elírások nélküli szöveget létrehozni. A fejlesztőknek komoly kihívást kellett megoldaniuk, mert ha a címek és a szövegelemek hibákat tartalmaznak, az egész kép használhatatlanná válik. Többhónapos apró iterációkkal érték el a célt, és a jelenlegi állapot ugyan még mindig nem tökéletes, viszont a szövegminőség folyamatosan és konzisztensen használható.

A rendszer autoregresszív megközelítést használ: szövegíráshoz hasonlóan, balról jobbra, felülről lefelé szekvenciálisan generál képeket. A legtöbb képgenerátor (például a DALL-E is) másként, diffúziós technikával működik: egyszerre hozza létre az egész képet. Ezért jobbak a ChatGPT szövegmegjelenítései és kötési lehetőségei.

A nyilvánossá tétel előtt a fejlesztők demonstrálták a lehetőségeket: többek között tudományos diagramokat, például Newton prizmakísérletét jelenítették meg. Kifejezetten praktikus alkalmazásokra, mint az étlapok átlátszó hátterének kidolgozása szintén felhívták a figyelmet.

Az új rendszerrel tovább tart a képgenerálás, de az OpenAI szerint megéri, mert a minőség és a lehetőségek kárpótolnak a plusz másodpercekért, bár nyilván javítani fognak rajta.

A deepfake-ek ellen komoly biztonsági funkciókat dolgoztak ki, amelyek vízjelek eltávolítását is megakadályozzák, és blokkolják a szexuális kamuképeket. A képgenerátor ugyanakkor nem tartalmaz vizuális „vízjelezőt”, sem azt a szöveges utalást, hogy „ezt a képet MI készítette.” Mindezzel együtt a metaadatokból egyértelmű, hogy az OpenAI, tehát MI munkáiról van szó, és a cég követni is tudja a generált képek útját.