Robotok házimunkát végeznek

2024. december 11. - ferenck

A robotok elég lassan profitáltak a gépi tanulásból, de úgy tűnik, hogy a generatív mesterséges intelligencia felgyorsítja a folyamatot, és az integráció konkrét alkalmazásokkal kecsegtet.

Nagy nyelvmodelleket (LLM) használva, a gépeknek angolul adhatók utasítások. A San Franciscói Physical Intelligence startup megfelelő méretű és változatos adatbázissal kidolgozott és praktikus cselekvésekre tanítottak be robotokat. Otthoni alkalmazásukra ugyan várni kell még, a teszteken viszont demonstrálták, hogy valóban hasznos házimunkákat képesek meglepően ügyesen elvégezni.

A Physical Intelligence ԯ0 (pí-zéró) gépi tanulás rendszerével magas szintű koordinációt és ügyességet igénylő feladatokat végeztek el robotkarok, például ruhákat hajtogattak össze, asztalokat takarítottak le. A cégbe az OpenAI, Jeff Bezos és Szilícium-völgyi kockázati tőkés-csoportok máris 400 millió dollárt invesztáltak.

Az előre gyakoroltatott PaliFGemma gépilátás-modell módosított változatán alapuló ԯ0 a szokásos módszerrel, zajeltávolítással működik, míg végül felhasználói utasításra a robot szenzorainak inputjaival (például a környezetről készített felvételekkel), beágyazásokkal és következtetéssel éri el a kívánt eredményt.

Hangutasításra egyetlen robotkar százszázalékos pontossággal rakott egymásra nagyméretű tálakat. Más gépitanulás-modellekkel (OpenVLA, Octo, ACT) megközelítőleg sem ért el ilyen jó eredményt, csak negyvenöt-ötvenöt százalékot. A ԯ0 összesítve nyolcvan százalék felett teljesített, több tíz százalékpontot rávert a riválisokra.

Alkalmanként persze ő is hibázik. Egy videón például a kar túl sok tojást rakott a dobozba, és erőltette, hogy záródjon le. Egy másikon ahelyett, hogy megtöltötte volna tárgyakkal, a konténert lehajította az asztalról.

A Physical Intelligence fejlesztése mindenesetre kapcsolódik a kereskedelmi robotika újjászületéséhez. A Skild általános rendeltetésű agyat fejleszt hozzájuk, a Figure AI humanoid robotjait multimodális MI-modellek működtetik, az ipari gépeket fejlesztő Covariant az Amazon technológiáját használja, az OpenAI pedig újraindította 2020-ban bezárt robotika részlegét.

A ԯ0-t egyesek máris a robotika GPT-1-eként emlegetik.