Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Magasra tette a lécet a Google legújabb képgenerátora, az Imagen 3

2024. szeptember 04. - ferenck

A képgenerátorok minden egyes új hullámával javul, szélesebb alkalmazói réteg számára lesz hasznosabb a technológia.

A Google nemrég mutatta be a korábbi változatokhoz képest előrelépést hozó Imagen 3, szöveges utasításokból vizuális outputot generáló modelljét. A képek minősége jobb, jobban visszaadják a promptokban leírtakat. Az Imagen 3 újabb funkciókkal bővült, hamarosan elérhető lesz a „befestés” és a „kifestés” is.

imagen.jpg

A modell – a fejlesztő állítása alapján – elődeinél több célra használható, a gyakorlóadatok biztonsági okok miatti szűrése viszont egyes helyzetekben csökkentheti a hasznosságát. Felhasználók panaszkodtak is már, hogy az Imagen 3 restriktívebb az Imagen 2-nél, míg a Grok2 nagy nyelvmodell (LLM) a Flux.1 korlátlan változatát használja képgeneráláshoz, amivel fel is keltette a média figyelmét. (és amire irigykednek az Imagen 3 felhasználói.)

imagen0.jpg

Az óvatosság, előrelátás mindenesetre nem árt szöveget képpé alakító alkalmazások esetében, ráadásul a gyakorlóadatokat egyébként is kezdik szigorúbban kezelni a fejlesztők (például azért, hogy az appok ne legyenek elfogultak, előítéletesek).

Az Imagen 3 a Google ImageFX webes felhasználói felületén és a Vertex AI platformon érhető el. Nem sokkal a Black Forest Lab (változatonként eltérően nyitott) Flux.1 modellcsaládja, a Midjourney v6.1 és a Stability AI Stable Diffusion XL-e után tették elérhetővé. Előbbiek mind júliusban debütáltak.

imagen2.jpg

A modellt leíró tanulmányban nem mutatják be részletesen az architektúrát és a gyakorlási folyamatot. A fejlesztők képeket, szövegeket és kapcsolódó annotációkat tartalmazó, nem specifikált „nagy” adatkészleten treníroztak diffúziós modellt. Az adatkészletből eltávolították a nem biztonságos, a gyenge minőségű, az erőszakos képeket, a duplikátumokat és a személyek azonosítására alkalmas infókat.

imagen1.jpg

A Google Gemini LLM-je néhány képaláírást generált, ezeket a gyakoroltatáshoz használták, hogy változatosabb legyen a modell nyelvezete.

A teszteken a prompt-alapú összehasonlításoknál az Imagen 3 felülmúlta a legtöbb versenytársat.

A bejegyzés trackback címe:

https://jelenbolajovobe.blog.hu/api/trackback/id/tr7018476569
süti beállítások módosítása