Hogyan játsszanak mesterséges intelligenciák régi Atari-játékokat?

2021. október 26. - ferenck

Megerősítéses tanuláson (reinforcement learning, RL) alapuló modellek egyre jobban teljesítenek régi Atari-játékokban, amellyel a szakterület fejlődéséhez is hozzájárulnak. Az új bajnok képalkotásból kölcsönzött trükkel bővített, egyszerű RL-architektúra.

A DeepMind, a londoni Imperial College és University College, valamint a Kolozsvári Műszaki Egyetem kutatói rájöttek, hogy színkép-normalizálással – hasonló inputok megjelenítése közötti különbségek korlátozásával – sokkal jobban javítható egy RL-modell teljesítménye, mintha több friss újítást egyesítenének.

Megerősítéses tanulással a modell figyeli a környezetét, például a legendás Pong játékot, a megfigyelés alapján dönti el, hogy mit cselekszik, mondjuk, megmozgat egy tárgyat, és ha jó az eredmény, jutalmat, adott esetben pontot kap. Nehéz így tanulni, mert különféle cselekedeteket választ ki, miközben a gyakorlóadatok, a megfigyelés és a jutalmak változnak.

A gyakorlóadatok módosítása hasonló problémát jelent a generatív ellenséges hálózatoknál (GAN) is. A generátor és a megkülönböztető hálózatok úgy befolyásolják egymást, hogy közben maguk is változnak.

GAN-oknál sokat segít a színkép-normalizálás – ezzel a technikával csökkentik a változásokat. A kutatók rájöttek, hogy ha egy GAN-nél bevált, akkor RL-modelleknél is működhet.

Konvolúciós ideghálót, egy megerősítéses tanuláshoz fejlesztett C51-et színkép-normalizálással bővítettek. A modellt az Árkád Tanulókörnyezetben (ALE) gyakoroltatták (az ALE egy játékgyűjtemény, amelyben a lépések az Atari kontroller mozdulatainak felelnek meg).

Megfigyelés alapján, C51 minden lehetséges lépéssel kapcsolatban előrejelzi a valószínű jutalmak eloszlását, majd kiválasztja a legmagasabbal kecsegtető lépést. Gyakorlás közben előrejelzett és tényleges jutalmakat összehasonlítva, finomít prognózisán.

A színkép-normalizálás a hálózati rétegekben korlátozza a paramétereket, például, hogy mekkora lehet az eltérés két előrejelzés között. Minél kisebb, annál hasonlóbbak a prognózisok. A limitek bevezetése kb. hasonló a tanulási tempó csökkentéséhez. A kutatók a modell tanulási tempójának csökkenését a színkép-normalizálással bevezetett korlátozásokkal szinkronba hozó optimalizáló eljárást találtak ki.

A két módszert használó modellek nagyjából egyformán teljesítettek, a színkép-normalizálás a modell minden szintjén javított a teljesítményen, viszont ha csak az utolsóelőttinél alkalmazták, az a modell kapta a legtöbb jutalmat.

A kutatók utolsóelőtti rétegben „színlép-normalizáló” technikával kiegészített C51 modellje a korábbi bajnok Rainbow-val mérkőzött meg, és 54 játékban átlagosan 248,45, míg ellenfele csak 227,05 jutalompontot gyűjtött.

Mi ebből a tanulság? Az, hogy a gépi tanulás egyik területén működő megoldások más területeken is nagyon hatékonyak lehetnek. A színkép-normalizálás beemelésével, egyszerűbb megerősítéses tanulómodellek jöhetnek, és a mostani technikák is javíthatók.