Nyelvtanulás másként

2024. április 04. - ferenck

A gépitanulás-modellek jellegzetesen olyan feladatokon gyakorolva tanulnak nyelveket, hogy egy adott szövegben előre kell jelezniük a következő szót. A Stanford Egyetem két kutatója viszont kevésbé fókuszált, inkább emberi módon trenírozott egy nyelvmodellt.

A nyelvet indirekt módon, szöveges kulcsokat szolgáltató szimulált környezetben való navigálással elsajátító, megerősítéses tanulásalapú ágenst fejlesztettek.

Ezek az ágensek a jutalmat maximalizáló cselekvések felfedezésével tanulnak. Ha a gyakorlókörnyezet a legmagasabb jutalom elérési módját elmagyarázó szöveget szolgáltat, az ágens hasznára válik, hogy megtanulja értelmezni az írott nyelvet. Tehát az írott szövegek megértésének megtanulása a jutalmak maximalizálásának sikerével jár együtt.

A kutatók a rácsvilág-környezeteket tartalmazó Minigrid megerősítéses tanulás könyvtárt használva, szimulált kétdimenziós közegsorozatot építettek. Az ágenst megtanították, hogy a DREAM („álom”, de itt biztos teljesen más jelentésű szavakat von össze) megerősítéses tanulás algoritmusnak megfelelően találjon meg egy adott helyiséget.

A folyosók által összekötött helyiségek kétdimenziós elrendezésűek, elrendezésenként tizenkét szobával, mindegyik tizenkét szín valamelyikére volt festve. A szoba-szín egyeztetés véletlenszerűen történt. Egy konzisztens helyiség utasításokat tartalmazott, hogy miként található meg a kék szoba.

A fejlesztők a színek váltogatásával és a kék szoba megtalálásra vonatkozó instrukciók folyamatos frissítésével, az elrendezés számos változatát hozták létre. Az utasítások vagy közvetlenek, vagy relatívok voltak.

Az ágens a kék szoba megtalálásáért jutalmat, minden egyes időbeli lépésért büntetést kapott. Lépésenként megkapta az irodai környezet egy részhalmazát, és számos művelet egyikét hajthatta végre. Az utasításokat tartalmazó helyet elérve, kapott a szövegről egy képet. Meghatározott ideig, vagy a kék szoba megtalálásáig folytatta a keresgélést.

Az ágens minden egyes alkalommal az összes helyiség érintése nélkül találta meg a kék szobát, és az is kiderült, hogy érti az utasításokban lévő szavakat.

Az algoritmus kiválasztása döntő jelentőségű volt. Más algoritmusokkal ugyanis nem a nyelvet, hanem például az ajtók ellenőrzését tanulta meg. A tény, hogy megerősítéses tanuláson alapuló ágens képes explicit gyakorlás nélkül nyelvet tanulni, új lehetőségekkel kecsegtet nyelvmodellek számára.