Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Komplex matematikai problémákat old meg a Google DeepMind új mesterséges intelligenciája

2024. augusztus 05. - ferenck

A Google DeepMind két új mesterségesintelligencia-rendszert mutatott be: az AlphaProof és az AlphaGeometry 2 közösen oldotta meg az idei Nemzetközi Matematikai Olimpia hatból négy feladatát. Az olimpia érettségiző diákoknak kiírt rangos verseny. A két rendszer teljesítménye annyit ért, mintha ezüstérmet nyertek volna.

Eredményük azonban túlmutat a matematikán, mert a rendszerek az MI-fejlesztés új irányát is jelenthetik. A chatelésre alkalmas MI-keresők az intelligencia érzetét kelthetik, a Google DeepMind jelen technológiái viszont növelik az MI tényleges intelligenciáját.

deepmind_7.jpg

Matematikában jól teljesítő rendszerek fejlesztése sok MI-labor, például az OpenAI célja is lehet. Egyértelmű oknál fogva: a matematika a következtetés, a logika mércéje. A feladatok megoldásával a rendszereknek nagyon összetett tevékenységeket kellett végezniük: tervezést, absztrakt problémák megértését és megoldását.

Képesek voltak általánosítani, ennélfogva megoldani a matematika több területének különböző problémáit. A már a góban remeklő AlphaGo esetében, 2016-ban kiválóan működött megerősítéses tanulás most, nagy nyelvmodellekkel (LLM) kombinálva, meglepő dolgokat tud.

deepmind0_5.jpg

Ezt a képességet Lean számítógépes nyelvű, matematikai bizonyítást jelentő programok írására használták fel. A módszer bármilyen helyzetre alkalmazható, ahol egyértelmű a jutalom, ellenőrizhetők a jutalom-jelzések, a válaszok helyessége pedig megkérdőjelezhetetlen módon értékelhető. Például a kódolás is ilyen terület.

Az AlphaProof és az AlphaGeometry 2 egyelőre csak érettségi szintű feladatokat old meg, és távol van még az ember által abszolvált extrém nehéz algebrai vagy geometriai problémáktól – hangsúlyozza a Google DeepMind. De nem is ez volt a jelenlegi cél.

Ezek és a hasonló rendszerek ugyanis új problémákat dolgoznak ki és oldanak meg, miközben sokakat inspirálnak arra, hogy az MI-vel foglalkozzanak.

Bogáragy segíti drónok hazatalálását

Sci-fi szerzők és robotikusok évek óta várják, hogy tucatnyi, sőt többszáz kicsi, bogárméretű drón autonóm módon, tandemben figyeljen nagy területeket. A pehelykönnyű gépekben azonban nincs elég számítási és szállítási kapacitás, mint például az önállóan navigáló önvezető járművekben vagy nagyobb robotokban.

Úgy tűnik, a holland Delfti Műszaki Egyetem (TU Delft) kutatói megoldást találtak a problémára. Az otthonukba, bolyba és más helyekre sikeresen visszatérő hangyákból és általában a rovarokból indultak ki. Elméletileg a hangyák lépéseik számlálásával és „pillanatkép modellel” boldogulnak: mentális „fotókat” készítenek a környezetről. Útközben a vizuális elemeket mindaddig igyekszenek a tárolt pillanatfelvételekhez társítani, amíg nem találnak azonosat. Összességében minimális memóriával és agykapacitással érnek el remek eredményt.

dron_navigacio.jpg

A holland kutatók pici kamerával és olcsó processzorral felszerelt, ötvenhat grammos drónra alkalmazták a rovarok példáját. Belső akadálypályát dolgoztak ki a gépnek, referenciaként pillanatfelvételeket készítettek a pályáról. Igyekeztek egymástól minél távolabbi pontokról minél kevesebb képet készíteni, hogy a drónnak kevesebb memóriakapacitásra legyen szüksége.

Sikeresen végezték el a feladatot, 0,65 kilobájt memóriával száz méteren navigáltak. Minimális vizuális számítás kellett hozzá, amelyre olcsó elektronika is elegendő. Tehát még a legkisebb robotok is képesek önállóan tájékozódni. 

A pillanatfelvétel-kísérlet alapján idővel apró drónokból álló rajok nehéz és komplex szenzorok vagy külső infrastruktúra, például GPS nélkül autonóm navigálhatnak. Az egyszerűség sűrűn lakott városi területeken, távoli barlangokban, és olyan helyeken jöhet jól, ahol a GPS nem opció.

A rajok mezőgazdasági területeken monitorozhatják a terményt, fertőzések korai jeleit, raktárakban kontrollálhatnak készleteket, és akár kutatási-mentési műveletekben is segédkezhetnek.

Az amerikai hadsereg kísérletezik változatos méretű drónrajok harctéri alkalmazásával. A TU Delft kutatói figyelmeztetnek: ha nagyon telepakolják a gépeket, sok alkalmazásnál eleve reménytelen a használatuk. 

Munkájuk fontos lépés a pici drónok, drónrajok fizikai közegben történő használata felé.

Nyílt forrásúaknak kell lenniük a svájci kormányzati szoftvereknek

Az Egyesült Államokkal ellentétben, több európai ország kormányzati informatikája használ nyílt forrású szoftvereket (OSS). Legutóbb Svájc tett öles lépteket ebben az irányban: szövetségi törvény mondja ki, hogy a közszférában nyílt forrású szoftverekkel kell dolgozni.

Az új törvény előírja: minden állami szervnek nyilvánosságra kell hoznia az általuk vagy számukra fejlesztett szoftverek forráskódját. Kivétel, ha harmadik felek jogai sérülnek, vagy biztonsági megfontolások megakadályozzák. A „közpénz, közkód” megközelítéssel a kormányzati tevékenység átláthatóságát, biztonságát és hatékonyságát kívánják növelni.

svajc_opensource.jpg

Hosszú út vezetett eddig.

A Svájci Szövetségi Legfelsőbb Bíróság 2011-ben közzétette OSS-licenc alatti Open Justicia bírósági alkalmazását. A szabadalmaztatott jogi szoftvereket fejlesztő Weblaw nagyon ellenezte a döntést, máig tartó jogi és politikai csatározás vette kezdetét, mígnem 2023-ban elfogadták a most életbe lépett törvényt.

A nyílt forrásért folytatott küzdelmet vezető Matthias Stürmer professzor (Berni Alkalmazott Tudományok Egyetem) szerint a törvény óriási lehetőség a kormány, az IT-ipar és a társadalom számára. Mindenki jól jár vele: csökkenti a közszféra beszállítási korlátait, lehetővé teszi vállalatoknak digitális üzleti szolgáltatások kiterjesztését, idővel esnek az IT-költségek, javulnak a szolgáltatások.

Az OSS kötelezővé tétele mellett a nem személyes és biztonsági szempontból nem érzékeny kormányzati adatokat szintén nyilvánossá kell tenni (Open Government Data, OGD). A két „nyíltság” szignifikáns paradigmaváltás.

A törvény alkalmazása például szolgálhat hasonló lépést fontolgató más országoknak. A közszférában promótálja a digitális szuverenitást, bátorítja az innovációt és az együttműködést. Az „implementációt” a Svájci Szövetségi Statisztikai Hivatal vezeti, szervezeti és anyagi aspektusait alaposan ki kell még dolgozniuk.

A nyílt forrás más európai országokat is régóta vonz, például Macron elnök rajong érte, a Francia Nemzeti Csendőrség Linuxot használ, az EU pedig hosszú ideig dolgozott az OSS biztonságossá tételén. Az Európai Bizottság viszont csökkenti az OSS projektek egyik főszponzora, az NGI Zero Commons Fund anyagi támogatását.

Az USA-ban jóval kevesebben támogatják a nyílt forrású kormányzati informatikát.

Képgenerátor modellek versenye

A mesterségesintelligencia-modelleket tesztelő Artificial Analysis szolgáltatás, az LMSys nagy nyelvmodelleket versenyeztető Chatbot Arénájához hasonlóan, „szövegből kép” ranglistát vezetett be. Az imgsys és a Gen-AI Arena szintén képgenerálással foglalkozik, de ott csak nyílt forrású modellek mérettetnek meg, így a népszerű Midjourney és a DALL-E kimaradt.

A kiértékelés alapja az egymás elleni, szemtől szemben elért eredmények. A széleskörű nyilvánosság a zsűri.

ttoi.jpg

A Midjourney v6 eddig több mint egy tucat másik modell felett diadalmaskodott: outputjai jobban visszaadják a bemenő promptokat, sebességben viszont elmarad a versenytársak mögött. 

Az Artificial Analysis random kiválaszt két modellt, és egyedi promptot ad meg nekik, utána bemutatja a promptot és a képeket. A felhasználók választhatnak. A rangsorolás egymáshoz viszonyítva pontozza a versenyzőket.

ttoi0.jpg

A modelleket ipari jelentőség és nem specifikált teljesítménytesztek alapján válogatja ki. A legnépszerűbbek, legjobban teljesítők – különösen az alkalmazásprogramozói felületen (API) keresztül elérhetők – azonosítása és összehasonlítása a cél. A Midjourney kivétel, nincs API-ja.

ttoi1.jpg

Eddig csak tizennégy modell felelt meg a küszöbértékeknek, de az Artificial Analysis módosít a kritériumokon, mert a jövőben többet szeretne.

A harmincnál többször szavazók saját szavazataikon alapuló személyes ranglistát is láthatnak.

ttoi2.jpg

A Szövegből Kép Arénától elválasztva, az Artificial Analysis a modellek képgenerálási és feltöltési idejét szintén összehasonlítja. Mindegyiket napi négyszer promptolják, és tizennégy napon keresztül átlagolják az outputok elkészülési idejét. Ezer kép generálásának az árát is követi.

A Midjourney v6 vezet, a Stable Diffusion 3 a második, a DALL-E 3 HD a harmadik, a nyílt forrású Playground v2.5 a negyedik. A Midjourney v6 ezer képes költsége 66, a Stable Diffusion 3-é 65, a DALL-E 3 HD-é 80, a Playground v2.5-é 5,13 dollár.

Egy szövetségi bíróság elutasított a GitHub, az OpenAI és a Microsoft elleni keresetet

Egy amerikai szövetségi bíróság elutasította a szellemi tulajdonjog megsértése és az abból származó tisztességtelen bevétel miatt a GitHub Copilot és az OpenAI Codex nyelvről kódra fordító modelljei ellen programozók által 2022 novemberében beadott keresetet.

A programozók állítása alapján a GitHub Copilot a GitHubon hosztolt nyíltforrású kódból engedély nélkül generált másolatokat, az OpenAI pedig a Codex gyakoroltatásához használta azokat.

github.jpg

Az alperesek többször el akarták érni a vádpontok ejtését. 2023 májusában a bíró elutasított néhány követelést, köztük azt a kulcsfontosságú érvet, amely szerint a GitHub Copilot megfelelő forrásmegjelölés nélkül is képes nyilvánoskód-másolatokat generálni. A bíróság a felpereseknek lehetővé tette érveik felülvizsgálatát.

Az új érvelés a GitHub Copilot másolásészlelő szűrőjére összpontosított. Ha engedélyezve van, a szűrő észleli a GitHubon található nyilvános kódnak megfelelő kimenetet, és felülvizsgálja azt. A felperesek azt magyarázták, hogy a funkció puszta léte bizonyíték: a Copilot képes kódot másolni a Codex gyakorló adatkészletében. Nem sikerült meggyőzniük a bírót.

A bíró szerint nem mutattak be konkrét bizonyítékot arról, hogy a Copilot nagymennyiségű kódmásolatot képes generálni. A felperes így újrafogalmazva sem nyújthatja be ezt a vádpontot.

A bíró azt az állítást is elutasította, amely szerint a GitHub a Copilothoz való hozzáférésért pénzt kérve, illegálisan profitált a kódolók munkájából. A kaliforniai törvények szerint a jogalap nélküli gazdagodáshoz a felperesnek be kell mutatnia, hogy az alperes „tévedés, csalás, kényszerítés vagy kérés” révén gazdagodott. A bíró szerint a felperesek ezt nem bizonyították.

A bírósági eljárás azonban nem zárult le teljesen, mert a szerződésszegés vádja továbbra is fennáll. A felpereseknek részletesen be kell mutatniuk, hogy a GitHub és az OpenAI megfelelő forrásmegjelölés nélkül használt nyílt forráskódot, megsértve a nyílt forrású licenceket. 

Emellett a felperesek ismét benyújtják a jogalap nélküli gazdagodással kapcsolatos keresetüket.

A per specifikuma, hogy nyílt forrásban gondolkodó fejlesztőkre vonatkozik. A végleges döntés meghatározhatja a kódhasználatot és a fejlesztők munka közbeni generatív MI-használatát. A mostani elutasító döntés azt vetíti előre, hogy MI-fejlesztők szabadabban használhatnak adatokat modellek gyakoroltatásához. Még akkor is, ha az adatok szerzői jogvédelem alá esnek.

Demokrácia és mesterséges intelligencia

A július tizennegyediki Donald Trump elleni merénylet sokkolóan bizonyította, mennyire törékeny a demokrácia – hangsúlyozza Andrew Ng, gépitanulás-szakértő.

A demokrácia hagyja, hogy az állampolgárok szavakkal és szavazatokkal fejezzék ki magukat, és ugyan nem tökéletes, sőt „a kormányzás legrosszabb formája, az összes többit leszámítva” – hivatkozik Winston Churchill híres mondatára Ng.

demokracia_es_ai.jpg

A demokratikus folyamatokat megszakító események, mint egy politikai jelölt elleni merénylet vagy a hatalom átadásának erőszakos késleltetése azért is elítélendő, mert alapvető mechanizmusokat támad, majd Ng felteszi a kérdést: milyen szerepet játszhat a mesterséges intelligencia a demokrácia megőrzésében?

Technológiáknak pozitív és negatív hatásai egyaránt lehetnek a demokrácia specifikus mechanizmusaira. Például adatelemzés állampolgároknak és újságíróknak egyaránt segíthet tények felderítésében. Politikai hirdetések és közösségimédia-tartalmak mikrotargetálásával a megosztottság is növelhető, viszont a közösségi média hasznos információkat juttathat el szavazóknak.

A mikroszint után a makroszintet vizsgálva, két jelenségre hívja fel a figyelmet.

A technológiához való hozzáférés koncentrációjával nő a hatalmi koncentráció is. A társadalom egy része az egész rovására erősödik meg, és így a technológiák gyengítik a demokráciát. Ha például csak nagyobb pártok rendelkeznek az erősen targetált politikai hirdetések elhelyezéséhez szükséges anyagi forrásokkal, akkor új pártok aligha futhatnak be.

Másrészt, az új technológiákhoz való széleskörű hozzáféréssel mindenki nagyobb hatalommal rendelkezik, ez pedig erősíti a demokráciát. Az okostelefonok, webes keresők és a nagy nyelvmodelleken alapuló chatbotok növelik az információhoz való hozzáférést, egyének önkifejezését. Minél jobban terjednek ezek a technológiák, annál jobban erősödik a demokrácia – állítja Ng, majd megígéri: mindent megtesznek e technológiák további terjedéséért.

A technológiához való hozzáférés demokratizálása ezért is segíti magát a demokráciát.

A mesterséges intelligencia kreatívabbá tesz, de megvannak a kreatív korlátai

Az Exeter Egyetem és az UCL (University College London) kutatói a mesterséges intelligencia kreativitásunkra gyakorolt hatását vizsgálták egyéni és csoportszinten. Kiderült, hogy generatív MI-modellekkel könnyebb és gyorsabb kreatív tartalmakat készíteni, viszont homogenizálják az outputot, ellaposítják a tartalmi sokszínűséget.

A GPT-4 rövid történetek írásában való közreműködését tanulmányozták, 293 önkéntessel. Találékonyságukat tesztelendő, tíz különböző szót kellett megadniuk, majd három megadott témából választva, nyolcmondatos történetet írattak velük fiatal felnőttekről. A következők közül választhattak: kaland a dzsungelben, nyílt tengeren, egy másik bolygón.

mi_kreativitas.jpg

Véletlenszerűen három csoportra osztották őket: az elsők csak saját ötleteiket használhatták, a másodikban lévők egy sztori-ötletet kaphattak a GPT-4-től, a harmadikak akár ötöt is.

Az MI-t használók 88,4 százaléka kihasználta a lehetőséget. A történetek kreativitását hatszáz fős másik csoport értékelte. Stilisztikai jegyeket, az újdonságot (eredetiséget) és a hasznosságot – továbbdolgozható-e könyvvé vagy más kiadható munkává – vették figyelembe.

A kevésbé kreatív írók outputjain szignifikáns mértékben javított az MI, ők profitáltak legtöbbet a GPT-4 által generált ötletekből. Történeteik kreatívabbak voltak, mint az MI-t egyáltalán nem használóké. Az eleve kreatívabbnak tartottak anyagain viszont szinte semmit nem változtatott a mesterséges intelligencia.

Az egyéni kreativitás feljavítása ellenére, kiderült, hogy az MI által befolyásolt történetek inkább hasonlítanak egymásra, mint az azt nem használóké. Azért lehetett így, mert a modellek csak a tanuláshoz használt adatokkal tudnak tartalmat generálni, így pedig az output kevésbé egyéni, kevésbé karakteres.

Tehát ha kiadók komoly mértékben használják ezeket a modelleket, a könyvek és más megjelent anyagok egysíkúbbak lehetnek. A konklúzió komoly kérdéseket vet fel az MI használatáról a kreatív iparágakban. 

Nyilván további hasonló kutatásokra lesz szükség.

Hogyan lett a mesterséges intelligenciából mesterséges intelligencia?

A mesterséges intelligenciára is érvényes, hogy gyakran a legegyszerűbb kérdéseket a legnehezebb megválaszolni. A világ sok problémáját megoldó technológiaként adják el, mégis úgy tűnik: szinte senki nem tudja pontosan, mi is az, közben persze úgy teszünk, mintha biztosan tudnánk. Nincs könnyű dolgunk, mert a címke az önvezető autóktól a beszédfelismerésig, a gépi fordítástól a chatbotokig sok technológiára ráhúzható.

Összességében, amikor MI-ről beszélünk, az ember esetében intelligenciát igénylő számítógépes tevékenységek kivitelezésének képességét értjük rajta.

hogyan_lett_mi.jpg

A „mesterséges intelligencia” kifejezést a legendás John McCarthy használta először, amikor 1955-ben az 1956 nyári Darthmouth College-i „alapító ülésre” – egy kutatási programra – kérvényezett hivatalosan anyagi támogatást.

McCarthy kollégái utálták a „mesterséges” szót. Van benne valami hamis – állította az egyik. Mások az „automata vizsgálatok”, a „komplex információfeldolgozás”, a „mérnöki pszichológia”, az „alkalmazott episztemológia”, a „neurális kibernetika”, a „nem numerikus számítások”, a „neuráldinamika”, a „fejlett automatikus programozás” és a „hipotetikus automata” kifejezéseket javasolták.

hogyan_lett_mi0.jpg

Egyik sem hangzik annyira jól és titokzatosan, de mégis érthetően, mint a mesterséges intelligencia.

Sokan, mint egy vallásban, úgy hisznek a technológia mostani erejében, jövőbeli fejlődésében. A népszerű mai narratíva a Big Tech vezető marketingesei, mint Sundar Pichai (Google) és Satya Nadella (Microsoft), vállalati guruk, mint Sam Altman és Elon Musk, híres informatikusok, mint Yan Le Cun és Geoffrey Hinton nevéhez kötődik, így együtt mindhez, és a felsorolást nyugodtan folytathatnánk.

Az MI körüli hype növekedésével, a vad jövőképek felvázolásától cseppet sem ódzkodó hype-ellenes lobbi is erősödött. A két tábor nem mindig és nem feltétlenül beszél jóhiszeműen egymásról. Időnként úgy és olyan türelmetlenek a másikkal szemben, mint vallások elkötelezett hívői például a teremtést másként látókról.

A következmények mindnyájunkat masszívan érintik. Nagy egók, nagy pénzek, arról nem is beszélve, amikor ipari vezetőknek és tudósoknak el kell magyarázniuk politikusoknak, döntéshozóknak, miről is van szó, mire képes, és mire nem képes a technológia, mennyire kell félnünk tőle.

Sokat számít, mit mondanak, mert a technológiát keresőmotoroktól telefonos asszisztensekig, mindennap használt szoftverekbe építik. Az MI velünk marad. Még akkor is, ha nem tudjuk pontosan mi az, mert van akinek matematika, és van akinek mágia. A harmadiknak meg mindkettő egyszerre.

Dühös madaraknak nem tetszenek a New Yorkhoz közeli strand felett járőröző drónok

A New York City strandjainál őrjáratozó drónflotta cápák jelenlétére utaló jeleket és messzire kalandozott, bajba jutott úszókat keres. Munka közben viszont főként dühös helyi „lakosokkal”, parti madarakkal, elsősorban amerikai laskafogókkal találkoztak.

Májusban kezdték, madárcsoportok azóta ismételten rajt formálnak a gépek körül, a rendőrséget és a város más illetékeseit a drónok útirányának megváltoztatására kényszerítve. A támadások üteme ugyan lassult, de nincs végük. Természetvédelmi szakértők aggódnak a drónok veszélyeztetett fajok szaporodására gyakorolt hatása miatt.

dron_beach.jpg

A sáskafogók az évnek ebben az időszakában rakják le tojásaikat a Rockaway Beach-en. A populáció stabilizálódott ugyan az utóbbi évtizedekben, a hatóságok azonban féltik őket.

A drónok az első naptól idegesítik őket, rájuk repülnek, körbeveszik a gépeket, énekelnek. Azt hiszik, ragadozóktól kell megmenteni fiókáikat – állítják környezetvédelmi szakemberek.

Egyetlen madárnak sem lett semmi baja, de többen közel jártak hozzá. A bajba jutott úszókra ejthető, felfújható mentőtutajokkal felszerelt drónok egyelőre nem végeztek mentést. Július tizenkettedikén láttak először cápát, le is zárták a strand nagy részét.

A madarak idővel megszokhatják az akár egy méter hosszú, repülés közben hangosan zümmögő gépeket. Többükre viszont stresszes hatással lehetnek, és tojásaikat otthagyva elmenekülhetnek a strandról. San Diego környékén többezer csér tett így egy drónnal történő ütközés során. Senki nem tudja, pontosan mekkora távolság kell a madarak megvédéséhez.

A Rockaway Beach New Yorkiak kedvelt nyári desztinációja, sok madárfajtával. Az incidensekből tanulva, a hatóságok elrendelték, hogy a drónok az amerikai laskafogók fészekrakó területétől távolabb járőrözzenek, mert a szülők nagyon mérgesek, senkit és semmit nem akarnak látni tojásaik, fiókáik körül.

A hatóságok az első esetek óta folyamatosan készítenek jelentéseket a drónok és a madarak közötti konfliktusról.

New York City nincs egyedül, a közeli Long Island-en szintén járőröznek drónok. Kisebbek és csendesebbek, úgy tűnik, nem háborgatják a madárvilágot. Ausztráliában is bevett gyakorlat cápák drónos monitorozása.

Eric Adams, New York City polgármesterének szenvedélye a dróntechnológia, és mivel egyre nehezebb szakembereket találni, életmentőnek tartja a programot.

A Gemini AI-val hasznosabbak az irodai robotok

Google-kutatók a természetesnyelv-feldolgozást és a gépi látást összekombinálva, új eszközt fejlesztettek robotok navigációjához: szöveges promptok és vizuális inputok alapján, belső térben történő tájékozódásra tanítottak meg egyet.

Robotok navigációjához a környezet feltérképezése mellett speciális fizikai koordinátákat is meg kell adni. A Vision Language (Látás Nyelv) navigáció fejlődésével váltak lehetővé a természetes nyelvű utasítások, például „menj a munkapadhoz.”

gemini_ai.jpg

A kutatók multimodális lehetőségek integrálásával továbbdolgozták a koncepciót, így történhet meg, hogy a robot egyszerre fogadjon természetes nyelvű és képi utasításokat. Például raktárban valaki tárgyat mutat a gépnek, és megkérdezi: melyik polcon van a helye? A Gemini 1.5 Pro MI-je a kérdést és a vizuális infót interpretálva, a válasz mellett a korrekt helyszínre vezető irányt is kijelöli.

Más utasításokkal szintén tesztelték: „vezess a kétajtós konferenciateremhez”, „hol találok kézfertőtlenítőt?”, „szeretnék valamit a nyilvánosságot kihagyva tárolni. Hova menjek?”

Az egyik kutató „OK robot” szöveggel aktiválta a rendszert, majd megkérte: vezesse valahova, ahol tud rajzolni. A robot válasza: „adj egy percet. Geminivel gondolkozunk.” Aztán a hatalmas DeepMind irodában elkezdett falra szerelhető nagy táblát keresni.

A gép helyzeti előnyből indult, mert eleve ismerte az irodateret. A kutatók a “multimodális utasítás-alapú navigáció bemutató utakkal” (MINT) technikát használták: először manuálisan irányították az irodában, speciális terekre mutatva, természetes nyelvet használva. Ugyanez a helyszín okostelefonos videofelvételével is megvalósítható. Az MI topológiai gráfot hoz létre belőle, és a kamerái által látottakat a bemutató videó célkeretével próbálja összekapcsolni. 

A kutatócsoport hierarchikus „látás-nyelv-cselekvés” (VLA) navigációs stratégiát alkalmazott: a környezet megértését józanész-következtetésekkel összekapcsolva, utasították az MI-t, hogyan fordítsa navigációs cselekvéssé a felhasználói kéréseket.

A korábban kivitelezhetetlen feladatok 86-90 százalékos megvalósításával nagyon elégedettek voltak. Megsüvegelendő teljesítmény, mert a feladatok végrehajtásához összetett következtetésre és multimodális interakciókra volt szükség nagyméretű valóvilág környezetben.

A kutatók ugyanakkor elismerik, hogy bőven van még min módosítani, fejleszteni tovább. A robot egyelőre magától nem tudja megvalósítani a bemutató utat. Az MI tíz-harminc másodperc alatt dolgozza ki a választ, így az interakció lassul.

Első lépésben ezeken szeretnének javítani.

süti beállítások módosítása