Egy új MI józanész-bölcsességet is használ képalkotáshoz

2019. július 10. - ferenck

A mai okostelefonok gyakran mesterséges intelligencia segítségével teszik élesebbé, tisztábbá a fényképeket. Az MIT (Massachusetts Institute of Technology) és az IBM kutatói által fejlesztett GANpaint Studio viszont a minimumból automatikusan hoz létre valósághű fotókat, tárgyakat szerkeszt képekbe, vagy vág ki belőlük.

A gépitanulás-rendszer GAN, azaz generatív ellenséges hálózat. Egy GAN két hálózatból áll, jelen esetben az egyik realista képek létrehozására összpontosít, míg a másik rendeltetése, hogy „társa” ne tévessze meg. Minden egyes alkalommal, amikor elutasít egy képet, fel kell tárnia a miérteket, és így az első hálózat a korábbinál jobb megoldásokkal állhat elő. Ezt addig ismétlik, amíg el nem jutnak a kvázi tökéletesig.

A kutatók megdöbbentek, mert rendszerük úgy tanul, mintha a mai MI-kre egyáltalán nem jellemző módon, józanész-bölcsességet (common sense knowledge) is használna közben. Ezzel a sajátosságával a fejlesztés az emberhez hasonlóan működő, komplex és állandóan változó autonóm rendszereket vetít előre.

„Minden rajzoló app követi a felhasználó utasításait, a miénk viszont nem hajlandó bármit is tenni, ha egy tárgyat lehetetlen környezetbe kellene helyeznie. Az eszközzel jobban megértjük, hogy egy GAN hogyan tanulja meg a képi világ ábrázolását” – magyarázza a projektet vezető Antonio Torralba.

A rendszer más GAN-ok teljesítményén is javít, az eltávolítandó objektumokat elemezve, korrigálja hibáikat. Az egyre áttekinthetetlenebb MI-eszközök világában az ideghálók és alapszerkezeteik jobb megértésében segíti a kutatókat.

Az egyik váratlan felfedezés, hogy – úgy tűnik –, megtanult néhány egyszerű szabályt a tárgyak egymás közötti viszonyáról. Valahogy tudja, hogy egy objektumot ne tegyen oda, ahonnan kirí, például ablakot az égbe. Különböző környezetekben különböző elemeket generál – ha a képen két épület látható, és mindkettőhöz ajtót kell rakni, nemcsak azonos ajtókat rak rá, hanem az ajtók látszatra el is térnek egymástól.

A fejlesztéssel azt akarták elérni, hogy a felhasználók jobban kontrollálhassák a GAN hálózatokat, amelyekkel egyébként kamuképek is létrehozhatók, az új rendszerrel viszont kimutatható, hogy egy kép valódi vagy sem.

A fejlesztésnél először azonosították a GAN meghatározott objektumtípusokkal, például fákkal összekapcsolható egységeit. A képi hibákat okozó egységeket szintén azonosították, és a minőség javítása érdekében eltávolították őket a rendszerből.

„Korábban nem ismertük a GAN-ok által generált egyáltalán nem élethű képek hibáinak az okát. Rájöttünk, hogy speciálisan idegsejt-beállítások felelősek értük” – nyilatkozta Hendrik Strobelt (IBM), a kutatást ismertető tanulmány egyik társszerzője.

Torralba szerint rendszerüket sok területen, például tervezők, képzőművészek, filmesek, videósok stb. alkalmazhatják.