Lövöldözős játékban remekel a mesterséges intelligencia

2021. július 20. - ferenck

Egyes mesterséges ideghálók nagyon jól megtanultak játszani, de például a Dota 2-t megerősítéses tanulással (reinforcement learning) közel kétezer évnek megfelelő (de azért tömörítéssel lényegesen rövidebb) ideig gyakorolták, hogy eredményeket érjenek el.

A Cambridge Egyetem kutatói új módszerrel kísérleteznek: az automatizált gamer nem játszik évezredekig, helyette napokon keresztül néz felvett játékmeneteket.

A modellt felügyelt tanulással (supervised learning) gyakoroltatták a Counter Strike: Global Offensive (CS:GO) elsőszemélyes lövöldözős játékon. Pixeleket elemezve jutott el a középhaladó szintig.

Megerősítéses tanulással programozói interfésszel rendelkező játékokban kiváló eredményt érhetnek el a mesterséges ideghálók. Mivel a játékmenet sokkal gyorsabb, mint valósidőben, az interfész teszi lehetővé az összes potenciális játékállapot kiaknázását.

A CS:GO-ban viszont nincs ilyen interfész. A viselkedésalapú klónozás néven ismert technika, a szakértői bemutatókból történő tanulás lehet az alternatíva. Nehéz ezeket a bemutatókat összegyűjteni, nyilvános közvetítések azonban szerencsére épp elég anyagot szolgáltatnak.

A rendszer konvolúciós ideghálóval minden egyes képkockáról megjelenítést generált, amelyeket több reprezentációval kombinálta, és meghatározta, hogy mit kell tenni képkockánként.

Előzetesen hetven órán, négymillió képkockán gyakoroltatták. A képkockákat a játékos lépéseire (előre, hátra halad, lő stb.) vonatkozó, manuálisan kidolgozott szabályokkal címkézték fel. Utána finomhangolták – négy óra, kétszázezer képkockányi játékmenet maradt. A munkában a világ tíz legjobb versenyzőjének egyike segédkezett.

Gyakorlás közben a rendszer megtanulta, hogyan minimalizálja az előrejelzett és a felvett lépések közötti különbséget. Következtetésnél a modell legnagyobb valószínűséget mutató előrejelzésével összhangban kell eldöntenie, merre mozgassa a karaktert és a karakter által látottakat kontrolláló kurzort. Akkor cselekszik (például lő), ha a cselekvés valószínűsége nagyobb, mint egy véletlenszerűen generált szám.

A játékba beépített, ember számára hozzáférhetetlen információkkal (az összes játékos pozíciója stb.) rendelkező, közepesen bonyolult ágenssel szemben sikeresen teljesített, percenként 2,67-szer ölt ellenséget, míg az ágens csak 1,97-szer. A legjobb tíz százalékba tartozó humán versenyzőkkel szemben már kevésbé volt sikeres, a percenkénti 4,27 levadászással szemben, a modell ezúttal csak 0,5 ellenséget likvidált 60 másodperc alatt.

A kutatás tanulsága, hogy a hozzáférhető szakértői bemutató mennyiségének függvényében, a viselkedésalapú-klónozás a megerősítéses tanulás alternatívája lehet.