Fiktív szavakkal átverhetők a képeket generáló ideghálók

2022. augusztus 26. - ferenck

Egyes ellenséges generatív hálózatok (GAN) által létrehozott képek rendeltetése a gépilátás-rendszerek megtévesztése. Az általuk létrehozott mintázatok alkalmasak az egyébként hatékony arc- és tárgyfelismerő rendszerek átvágására, olyan dolgokat és arcokat értelmeznek félre, amelyeket különben simán azonosítanának.

Ilyen trükközéssel hackerek kijátszhatnak biztonsági rendszereket. De vajon a szöveget képpé alakító algoritmusok, speciálisan gyakoroltatott ideghálók is ennyire könnyedén átverhetők?

Raphaël Millière, a Columbia Egyetem mesterségesintelligencia-kutatója szerint igen. Rájött, hogyan lehet fiktív szavakkal úgy kijátszani őket, hogy a rendszer speciális válaszokat generáljon.

Az utóbbi hónapokban ezek a rendszerek annyit fejlődtek, hogy a felhasználó például begépeli az „űrhajós lovagol” mondatot, és meglepően élethű képet kap. A rendszerek nem tökéletesek, de mégis lenyűgözőek.

Nonszensz szavakkal, például Lewis Carroll egyes verseivel az emberek is átejthetők, mert speciális képek ugranak be róluk. Millière azt tanulmányozta, hogy a szövegből képet létrehozó algoritmusok is ugyanígy sebezhetők, vagy sem. Sajátos technikát dolgozott ki fantáziaszövegekhez – a „macaroni prompting” különböző nyelvek létező szavaiból hoz össze valamit. A szikla angolul cliff, németül Klippe, olaszul scogliera, franciául falaise, spanyolul acantilado, az új szó pedig „falaiscoglieklippantilado.”

Meglepetésére, amikor a DALL-E 2-nek begépelte a kamuszót, a rendszer sziklákat ábrázoló képsorozattal állt elő. Utána ugyanezzel a módszerrel más szavakat alkotott, és az eredmények is hasonlók voltak. Minden egyes esetben DALL-E 2 az angol szó alapján generált élethű képeket.

A kutató mondatokat is alkotott a kamuszavakból. Az eredmények megint az értelmesen értelmetlen mondatra rímeltek, azaz lényegében hibrid nonszensz szövegekkel szinte bármiről készíthető kép. Ha a szövegeket összekombináljuk, még komplexebb képek születnek (2. ábra).

Ez azért is lehetséges, mert sok képet több nyelven címkéznek fel, így a fiktív szavak rendelkeznek olyan információkkal, amelyeket a rendszer képes dekódolni, ami biztonságtechnológiai szempontból aggasztó – a szóalkotó technikával különféle szűrők játszhatók ki, és káros (rasszista, uszító stb.) tartalmak jeleníthetők meg.

Millière javaslata: ha nem akarunk bizonyos képeket, a gyakorló adatsorból szedjük ki az összes példát, vagy az algoritmus közzététele előtt ellenőrizzük valamennyi képet.

A szövegből képet generáló rendszerekkel egyelőre korlátozott a felhasználói interakció. A Google például nem tette közkinccsé a két legfejlettebbet (Parti, Imagen), és a DALL-E 2 (OpenAI) hozzáférhetősége is korlátozott.

A jövőben viszont egész biztosan széles körben elterjednek. Fontos, hogy gyengeségeikkel és korlátaikkal is tisztában legyünk, mert nagyon nem mindegy, hogyan, milyen szabályozói környezetben használjuk majd őket.