Megerősítéses tanuláson (reinforcement learning, RL) alapuló modellek egyre jobban teljesítenek régi Atari-játékokban, amellyel a szakterület fejlődéséhez is hozzájárulnak. Az új bajnok képalkotásból kölcsönzött trükkel bővített, egyszerű RL-architektúra.
A DeepMind, a londoni Imperial College és University College, valamint a Kolozsvári Műszaki Egyetem kutatói rájöttek, hogy színkép-normalizálással – hasonló inputok megjelenítése közötti különbségek korlátozásával – sokkal jobban javítható egy RL-modell teljesítménye, mintha több friss újítást egyesítenének.
Megerősítéses tanulással a modell figyeli a környezetét, például a legendás Pong játékot, a megfigyelés alapján dönti el, hogy mit cselekszik, mondjuk, megmozgat egy tárgyat, és ha jó az eredmény, jutalmat, adott esetben pontot kap. Nehéz így tanulni, mert különféle cselekedeteket választ ki, miközben a gyakorlóadatok, a megfigyelés és a jutalmak változnak.
A gyakorlóadatok módosítása hasonló problémát jelent a generatív ellenséges hálózatoknál (GAN) is. A generátor és a megkülönböztető hálózatok úgy befolyásolják egymást, hogy közben maguk is változnak.
GAN-oknál sokat segít a színkép-normalizálás – ezzel a technikával csökkentik a változásokat. A kutatók rájöttek, hogy ha egy GAN-nél bevált, akkor RL-modelleknél is működhet.
Konvolúciós ideghálót, egy megerősítéses tanuláshoz fejlesztett C51-et színkép-normalizálással bővítettek. A modellt az Árkád Tanulókörnyezetben (ALE) gyakoroltatták (az ALE egy játékgyűjtemény, amelyben a lépések az Atari kontroller mozdulatainak felelnek meg).
Megfigyelés alapján, C51 minden lehetséges lépéssel kapcsolatban előrejelzi a valószínű jutalmak eloszlását, majd kiválasztja a legmagasabbal kecsegtető lépést. Gyakorlás közben előrejelzett és tényleges jutalmakat összehasonlítva, finomít prognózisán.
A színkép-normalizálás a hálózati rétegekben korlátozza a paramétereket, például, hogy mekkora lehet az eltérés két előrejelzés között. Minél kisebb, annál hasonlóbbak a prognózisok. A limitek bevezetése kb. hasonló a tanulási tempó csökkentéséhez. A kutatók a modell tanulási tempójának csökkenését a színkép-normalizálással bevezetett korlátozásokkal szinkronba hozó optimalizáló eljárást találtak ki.
A két módszert használó modellek nagyjából egyformán teljesítettek, a színkép-normalizálás a modell minden szintjén javított a teljesítményen, viszont ha csak az utolsóelőttinél alkalmazták, az a modell kapta a legtöbb jutalmat.
A kutatók utolsóelőtti rétegben „színlép-normalizáló” technikával kiegészített C51 modellje a korábbi bajnok Rainbow-val mérkőzött meg, és 54 játékban átlagosan 248,45, míg ellenfele csak 227,05 jutalompontot gyűjtött.
Mi ebből a tanulság? Az, hogy a gépi tanulás egyik területén működő megoldások más területeken is nagyon hatékonyak lehetnek. A színkép-normalizálás beemelésével, egyszerűbb megerősítéses tanulómodellek jöhetnek, és a mostani technikák is javíthatók.