Gyorsan fejlődik a szövegből generált képek szerkesztése

2023. június 08. - ferenck

Sokat fejlődnek a szöveges utasítás alapján szöveget létrehozó modellek, látványosan egyre jobbak az outputok. Vajon a képgenerátorok hatékonyabb gyakoroltatásától – hogy tényleg a promptokat kövessék – is hasonló eredmény várható?

A Berkeley-i Kaliforniai Egyetem (UC Berkeley) kutatói által fejlesztett InstructPix2Pix módszerrel valószínűleg közelebb kerülünk a célhoz. Előzetesen gyakoroltatott szövegből képet generáló modellt képek újravizsgálására finomhangolnak vele. Egyszerű utasításokat használ, például „helyettesítsd banánnal a narancsot”. Még a kép narancsokat tartalmazó részét sem jelöli meg a promptban.

A módszer – értelemszerűen promptot nélkülöző – hagyományos és promptból generált képekkel egyaránt működik.

Ha képet és szerkesztési utasítást adunk egy tipikus előzetes tanuláson átment képgenerátornak, az eredmény tartalmazhatja az óhajtott elemeket, de valószínűleg másként néz ki, mint ahogy elképzeltük. Viszont úgy finomhangolhatjuk, hogy a promptot, a promptból generált képet, a prompt átszerkesztett változatát, az ahhoz kapcsolódó megváltoztatott képet és a változtatást leíró utasítást tartalmazó adatsort használva, utasításainkra tényleg megfelelő választ adjon.

Többszáz vagy többezer kép annotálása nagyon költséges és fáradságos lehet, egy ilyen adatsor viszont szerencsére szintetizálható is. Képek és a promptoknak megfelelő leírások korpuszával kezdjük, majd egy előre gyakoroltatott nagy nyelvmodell átdolgozott promptokkal, végül a képgenerátor pedig átdolgozott lépekkel áll elő.

A kutatók a Stable Diffusiont finomhangolták, és a kép átdolgozására vonatkozó utasítást adtak neki. A finomhangoló adatsort a GPT-3 nagy nyelvmodell, maga a szövegből képet alkotó Stable Diffusion, és a kezdő prompt átdolgozott változatával generált képeket újfent átdolgozó Prompt-to-Prompt segítségével dolgozták ki.

Az InstructPix2Pix a teszteken kifejezetten jó eredményt ért el, és a képgenerálást is egyszerűbbé teszi. Meglévő modellek átgondolt használatával a kutatóknak, viszonylag kevés ember által címkézett példával dolgozva, új feladatra sikerült betanítaniuk a modelljüket.