Google-kutatók a természetesnyelv-feldolgozást és a gépi látást összekombinálva, új eszközt fejlesztettek robotok navigációjához: szöveges promptok és vizuális inputok alapján, belső térben történő tájékozódásra tanítottak meg egyet.
Robotok navigációjához a környezet feltérképezése mellett speciális fizikai koordinátákat is meg kell adni. A Vision Language (Látás Nyelv) navigáció fejlődésével váltak lehetővé a természetes nyelvű utasítások, például „menj a munkapadhoz.”
A kutatók multimodális lehetőségek integrálásával továbbdolgozták a koncepciót, így történhet meg, hogy a robot egyszerre fogadjon természetes nyelvű és képi utasításokat. Például raktárban valaki tárgyat mutat a gépnek, és megkérdezi: melyik polcon van a helye? A Gemini 1.5 Pro MI-je a kérdést és a vizuális infót interpretálva, a válasz mellett a korrekt helyszínre vezető irányt is kijelöli.
Más utasításokkal szintén tesztelték: „vezess a kétajtós konferenciateremhez”, „hol találok kézfertőtlenítőt?”, „szeretnék valamit a nyilvánosságot kihagyva tárolni. Hova menjek?”
Az egyik kutató „OK robot” szöveggel aktiválta a rendszert, majd megkérte: vezesse valahova, ahol tud rajzolni. A robot válasza: „adj egy percet. Geminivel gondolkozunk.” Aztán a hatalmas DeepMind irodában elkezdett falra szerelhető nagy táblát keresni.
A gép helyzeti előnyből indult, mert eleve ismerte az irodateret. A kutatók a “multimodális utasítás-alapú navigáció bemutató utakkal” (MINT) technikát használták: először manuálisan irányították az irodában, speciális terekre mutatva, természetes nyelvet használva. Ugyanez a helyszín okostelefonos videofelvételével is megvalósítható. Az MI topológiai gráfot hoz létre belőle, és a kamerái által látottakat a bemutató videó célkeretével próbálja összekapcsolni.
A kutatócsoport hierarchikus „látás-nyelv-cselekvés” (VLA) navigációs stratégiát alkalmazott: a környezet megértését józanész-következtetésekkel összekapcsolva, utasították az MI-t, hogyan fordítsa navigációs cselekvéssé a felhasználói kéréseket.
A korábban kivitelezhetetlen feladatok 86-90 százalékos megvalósításával nagyon elégedettek voltak. Megsüvegelendő teljesítmény, mert a feladatok végrehajtásához összetett következtetésre és multimodális interakciókra volt szükség nagyméretű valóvilág környezetben.
A kutatók ugyanakkor elismerik, hogy bőven van még min módosítani, fejleszteni tovább. A robot egyelőre magától nem tudja megvalósítani a bemutató utat. Az MI tíz-harminc másodperc alatt dolgozza ki a választ, így az interakció lassul.
Első lépésben ezeken szeretnének javítani.