A képgenerátorok minden egyes új hullámával javul, szélesebb alkalmazói réteg számára lesz hasznosabb a technológia.
A Google nemrég mutatta be a korábbi változatokhoz képest előrelépést hozó Imagen 3, szöveges utasításokból vizuális outputot generáló modelljét. A képek minősége jobb, jobban visszaadják a promptokban leírtakat. Az Imagen 3 újabb funkciókkal bővült, hamarosan elérhető lesz a „befestés” és a „kifestés” is.
A modell – a fejlesztő állítása alapján – elődeinél több célra használható, a gyakorlóadatok biztonsági okok miatti szűrése viszont egyes helyzetekben csökkentheti a hasznosságát. Felhasználók panaszkodtak is már, hogy az Imagen 3 restriktívebb az Imagen 2-nél, míg a Grok2 nagy nyelvmodell (LLM) a Flux.1 korlátlan változatát használja képgeneráláshoz, amivel fel is keltette a média figyelmét. (és amire irigykednek az Imagen 3 felhasználói.)
Az óvatosság, előrelátás mindenesetre nem árt szöveget képpé alakító alkalmazások esetében, ráadásul a gyakorlóadatokat egyébként is kezdik szigorúbban kezelni a fejlesztők (például azért, hogy az appok ne legyenek elfogultak, előítéletesek).
Az Imagen 3 a Google ImageFX webes felhasználói felületén és a Vertex AI platformon érhető el. Nem sokkal a Black Forest Lab (változatonként eltérően nyitott) Flux.1 modellcsaládja, a Midjourney v6.1 és a Stability AI Stable Diffusion XL-e után tették elérhetővé. Előbbiek mind júliusban debütáltak.
A modellt leíró tanulmányban nem mutatják be részletesen az architektúrát és a gyakorlási folyamatot. A fejlesztők képeket, szövegeket és kapcsolódó annotációkat tartalmazó, nem specifikált „nagy” adatkészleten treníroztak diffúziós modellt. Az adatkészletből eltávolították a nem biztonságos, a gyenge minőségű, az erőszakos képeket, a duplikátumokat és a személyek azonosítására alkalmas infókat.
A Google Gemini LLM-je néhány képaláírást generált, ezeket a gyakoroltatáshoz használták, hogy változatosabb legyen a modell nyelvezete.
A teszteken a prompt-alapú összehasonlításoknál az Imagen 3 felülmúlta a legtöbb versenytársat.