A táblás játékokkal, például a sakkal és a goval ellentétben, virtuális autóversenyek megnyeréséhez, algoritmusoknak nagyon gyorsan kell komplex döntéseket hozni, miközben kicentizett határon mozognak, ami az egyik pillanatban küzdelem, a másikban az ellenfél veszélyeztetésévé, sportszerűtlenséggé válhat.
És ez „csak” a virtuális tér, mert hiába döbbenetesen élethű egy játék, és teljesít jól benne a mesterséges intelligencia, a valóság, egy igazi autó szignifikánsan más.
A Sony egyik csoportja által fejlesztett Gran Turismo Sophy (GT Sophy) megerősítéses tanulásalapú modell az autóversenyeket nagyon részletesen, hitelesen szimuláló Gran Turismo Sport PlayStation játékon legyőzött humán bajnokokat.
Meg kellett tanulnia, hogy nem probléma, ha verseny közben ütközünk egy másik autóval, viszont nem mindegy hogyan, mikor szabályos vagy szabálytalan az előzés. A játékban, mint a valódi versenyekben, bíró bünteti a szabályokat megszegő versenyzőket.
Megerősítéses tanulóalgoritmus tudja modellezni ezt a döntéshozást: minden egyes ütközéshez költséget rendel, viszont vigyáznia kell, hogy ne befolyásolja rossz irányba a teljesítményt. Ha túl nagy a büntetés, a versenyző elveszíti a kedvét és félénk lesz, ha viszont túl kicsi, akkor könnyen veszélyessé válik, és egyik sem jó.
Az olyan gyakori esetek büntetése, amelyekben a sofőrt általában hibásnak tartják, mint a hátra hajtás, a nagyon hirtelen oldalra kihúzással történő sávváltás, a frontális ütközés beható megismerése segíthet az ideghálónak megtanulni a merész, de ellenfeleit nem veszélyeztető vezetést.
A járműre és a környezetre vonatkozó információk birtokában, egy másik idegháló döntötte el, hogyan kell kormányozni és gyorsítani. A fejlesztők három virtuális pályán, egyedi forgatókönyveken gyakoroltatták a hálózatot. Saját magával, korábbi iterációival és a játékon belüli MI-vel is megmérkőzött.
A gyorsítást vagy fékezést olyan változók alapján döntötte el, mint a jármű sebessége, gyorsulása, gumik tömege, elhelyezkedése, irányultsága, a környezetet leíró adatpontok, a körülötte lévő kocsik pozíciója, hogy fallal vagy másik autóval ütközik stb.
Gyakorlás közben a modell jutalom-, illetve büntetőpontokat kapott, míg egy külön idegháló az adatok alapján megtanulta előrejelezni, hogy adott lépés esetén jutalmat kap-e.
GT Sophy jobb futamidőket ért el, mint a világ három Gran Turismo Sport topversenyzője.