A Gemini AI-val hasznosabbak az irodai robotok

2024. július 22. - ferenck

Google-kutatók a természetesnyelv-feldolgozást és a gépi látást összekombinálva, új eszközt fejlesztettek robotok navigációjához: szöveges promptok és vizuális inputok alapján, belső térben történő tájékozódásra tanítottak meg egyet.

Robotok navigációjához a környezet feltérképezése mellett speciális fizikai koordinátákat is meg kell adni. A Vision Language (Látás Nyelv) navigáció fejlődésével váltak lehetővé a természetes nyelvű utasítások, például „menj a munkapadhoz.”

A kutatók multimodális lehetőségek integrálásával továbbdolgozták a koncepciót, így történhet meg, hogy a robot egyszerre fogadjon természetes nyelvű és képi utasításokat. Például raktárban valaki tárgyat mutat a gépnek, és megkérdezi: melyik polcon van a helye? A Gemini 1.5 Pro MI-je a kérdést és a vizuális infót interpretálva, a válasz mellett a korrekt helyszínre vezető irányt is kijelöli.

Más utasításokkal szintén tesztelték: „vezess a kétajtós konferenciateremhez”, „hol találok kézfertőtlenítőt?”, „szeretnék valamit a nyilvánosságot kihagyva tárolni. Hova menjek?”

Az egyik kutató „OK robot” szöveggel aktiválta a rendszert, majd megkérte: vezesse valahova, ahol tud rajzolni. A robot válasza: „adj egy percet. Geminivel gondolkozunk.” Aztán a hatalmas DeepMind irodában elkezdett falra szerelhető nagy táblát keresni.

A gép helyzeti előnyből indult, mert eleve ismerte az irodateret. A kutatók a “multimodális utasítás-alapú navigáció bemutató utakkal” (MINT) technikát használták: először manuálisan irányították az irodában, speciális terekre mutatva, természetes nyelvet használva. Ugyanez a helyszín okostelefonos videofelvételével is megvalósítható. Az MI topológiai gráfot hoz létre belőle, és a kamerái által látottakat a bemutató videó célkeretével próbálja összekapcsolni.

A kutatócsoport hierarchikus „látás-nyelv-cselekvés” (VLA) navigációs stratégiát alkalmazott: a környezet megértését józanész-következtetésekkel összekapcsolva, utasították az MI-t, hogyan fordítsa navigációs cselekvéssé a felhasználói kéréseket.

A korábban kivitelezhetetlen feladatok 86-90 százalékos megvalósításával nagyon elégedettek voltak. Megsüvegelendő teljesítmény, mert a feladatok végrehajtásához összetett következtetésre és multimodális interakciókra volt szükség nagyméretű valóvilág környezetben.

A kutatók ugyanakkor elismerik, hogy bőven van még min módosítani, fejleszteni tovább. A robot egyelőre magától nem tudja megvalósítani a bemutató utat. Az MI tíz-harminc másodperc alatt dolgozza ki a választ, így az interakció lassul.

Első lépésben ezeken szeretnének javítani.