A gépitanulás-modellek jellegzetesen olyan feladatokon gyakorolva tanulnak nyelveket, hogy egy adott szövegben előre kell jelezniük a következő szót. A Stanford Egyetem két kutatója viszont kevésbé fókuszált, inkább emberi módon trenírozott egy nyelvmodellt.
A nyelvet indirekt módon, szöveges kulcsokat szolgáltató szimulált környezetben való navigálással elsajátító, megerősítéses tanulásalapú ágenst fejlesztettek.
Ezek az ágensek a jutalmat maximalizáló cselekvések felfedezésével tanulnak. Ha a gyakorlókörnyezet a legmagasabb jutalom elérési módját elmagyarázó szöveget szolgáltat, az ágens hasznára válik, hogy megtanulja értelmezni az írott nyelvet. Tehát az írott szövegek megértésének megtanulása a jutalmak maximalizálásának sikerével jár együtt.
A kutatók a rácsvilág-környezeteket tartalmazó Minigrid megerősítéses tanulás könyvtárt használva, szimulált kétdimenziós közegsorozatot építettek. Az ágenst megtanították, hogy a DREAM („álom”, de itt biztos teljesen más jelentésű szavakat von össze) megerősítéses tanulás algoritmusnak megfelelően találjon meg egy adott helyiséget.
A folyosók által összekötött helyiségek kétdimenziós elrendezésűek, elrendezésenként tizenkét szobával, mindegyik tizenkét szín valamelyikére volt festve. A szoba-szín egyeztetés véletlenszerűen történt. Egy konzisztens helyiség utasításokat tartalmazott, hogy miként található meg a kék szoba.
A fejlesztők a színek váltogatásával és a kék szoba megtalálásra vonatkozó instrukciók folyamatos frissítésével, az elrendezés számos változatát hozták létre. Az utasítások vagy közvetlenek, vagy relatívok voltak.
Az ágens a kék szoba megtalálásáért jutalmat, minden egyes időbeli lépésért büntetést kapott. Lépésenként megkapta az irodai környezet egy részhalmazát, és számos művelet egyikét hajthatta végre. Az utasításokat tartalmazó helyet elérve, kapott a szövegről egy képet. Meghatározott ideig, vagy a kék szoba megtalálásáig folytatta a keresgélést.
Az ágens minden egyes alkalommal az összes helyiség érintése nélkül találta meg a kék szobát, és az is kiderült, hogy érti az utasításokban lévő szavakat.
Az algoritmus kiválasztása döntő jelentőségű volt. Más algoritmusokkal ugyanis nem a nyelvet, hanem például az ajtók ellenőrzését tanulta meg. A tény, hogy megerősítéses tanuláson alapuló ágens képes explicit gyakorlás nélkül nyelvet tanulni, új lehetőségekkel kecsegtet nyelvmodellek számára.