Állandóan változó virtuális játékkörnyezetben tanulnak az MI-k

2021. szeptember 28. - ferenck

A Google-hoz tartozó mesterségesintelligencia-fejlesztő londoni DeepMind cukorka színű virtuális játszóteret fejlesztett MI-k tanítására. A videojátékokra emlékeztető XLand 3D világban állandóan változó feladatokat megoldva kell általános képességekre szert tenniük.

Speciális feladat abszolválásához szükséges egyedi képességek megszerzése helyett, a közeget színeken keresztül érzékelő mesterséges intelligenciák kísérletezni és felfedezni tanulnak, és közben korábban soha nem látott tevékenységekhez fontos adottságokra tesznek szert.

Ez egy lépés az általános mesterséges intelligencia (AGI, artificial general intelligence) felé.

A világot központi MI kezeli, a környezet megváltoztatásával ő határozza meg a többmilliárd különböző feladatot, a szabályokat és a játékosok számát. Ő és a többiek is megerősítéses tanulást és próba-hiba (trial and error) módszert használnak.

Gyakorlás közben, először egyszemélyes játékokkal szembesülnek, például bíborszínű kockát kell sárga labdára vagy vörös padlóra tenniük. Később több-résztvevős játékokig fejlődnek, amelyekben, mondjuk, zászlót kell elrejteniük, megtalálniuk, versengeniük, hogy ki lesz az első. A játszótér-menedzsernek nincsenek speciális céljai, a játékosok általános képességeit akarja folyamatosan javítani.

A DeepMind korábbi MI-jei, például a sakkban és góban remeklő AlphaZero egyszerre csak egy játékot tudtak megtanulni. Úgy képzeljük el, hogy sakkról góra váltva, sakk-agyukat go-agyra cserélik. Az XLand ennek az állapotnak akar véget vetni, ezért van szükség több feladat szimultán elvégzésére, azokhoz könnyen adoptálható általános képességekre.

Speciális cél nélküli, nyílt tanulással az MI-k elvileg elérhetik ezt a szintet. A Homo sapiens és sok állat is így, céltalanul játszva tanul. Mesterséges intelligenciák esetében viszont nagymennyiségű adat kell hozzá, amelyet – a végtelen feladathalmazok formájában – az XLand automatikusan generál nekik.

Egyes MI-k legalább négyezer virtuális világon, 700 ezernél több, különféle játékon, 3,4 millió egyedi feladaton vannak túl. A helyzetenkénti legjobb lépés helyett addig kísérleteznek, amíg el nem jutnak a megoldásig.