Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Közeledik a robotika „ChatGPT-pillanata”?

2024. április 23. - ferenck

A robotika Szent Grálja a diszciplína kezdetei óta a házimunkáinkat elvégző gépek voltak. Hosszú évtizedekig csak álmodozhattunk róluk, mert teljesen más kontrollált laboratóriumi körülmények között, aprólékos tervezés után megvalósítani valamit, mint folyamatosan változó, akadályokkal teli közegben, például az otthonainkban.

A robotikusok körében jól ismert Moravec-paradoxon alapján, amit az ember nehezen csinál meg, könnyű egy gépnek, és ami az embernek könnyű, az a gépnek nehéz. A mesterséges intelligenciának köszönhetően, változik a helyzet, robotok egyre jobban hajtanak végre korábban kivitelezhetetlen feladatokat: összehajtják a ruhát, főznek, kipakolják a bevásárlókosarat stb.

robot_chatgpt.jpg

A szakterület inflexiós ponthoz érkezett. Több trend, szerencsés összjátékuk következtében a robotok talán tényleg kiléphetnek a laborok zárt világából, és bemasírozhatnak otthonainkba.

Az első a hardver-áresés, többek számára teszi hozzáférhetővé a kutatásfejlesztéseket. Bonyolultabb szerkezetek többszáz millió dollárba kerülnek, viszont egyre gyakoribbak az olcsóbb masinák. A Hello Robot startup által a pandémia alatt fejlesztett Stretch költsége 18 ezer dollár volt – mobil, kamerával szerelték fel, karján markoló, konzol kontrollerrel irányítható, poharakat szed össze. A Stanford Egyetem Mobile ALOHA gépe boltban beszerezhető komponensekből álló, nyílt forrású, távvezérelt rendszer, rákokat főz már.

robot_chatgpt0.jpg

Az MI a második, segítségével agyat építhetünk robotoknak, azaz szoftver-szinten is óriási az előrelépés. Fejlesztők a fizikai ügyességről, mélytanulással és neurális hálókat használva, az általános rendeltetésű „agyra” helyezhetik a fókuszt.

A Google tavaly nyáron debütált RT-2 modellje online szövegekből és képekből érti a világot, és lép interakcióba környezetével. Tanulással és gyakorlással jutott el eddig. A Toyota, a Columbia Egyetem és az MIT (Massachusetts Institute of Technology) kutatói imitációs tanulással és generatív MI-vel több cselekvést, különösen mozdulattípusokat gyorsan elsajátítattak robotokkal. Az OpenAI multimodális BFM 1-e szöveges, képi, videó-, robotutasítások (promptok) vagy mérések alapján, azokat megértve generál a feladatokról képeket vagy videókat.

A harmadik ok, hogy a több adat alapján a robotok több adottságot sajátítanak el. A nagy nyelvmodellek (LLM-ek) esetében az internetről összegyűjtött irdatlan mennyiségű tanulóadat nem működik náluk, mert speciálisakra – mosógép vagy jégszekrény kinyitásának, ruhák összehajtogatásának fizikai bemutatására stb. – van szükségük. Egyelőre kevés az ilyen adat, és sokáig tart, ha emberek gyűjtik össze őket.

A Google DeepMind egyik új projektje (Open X-Embodiement Collaboration) változtatni akar ezen. Harmincnégy kutatólabor százötven tudósával huszonkét robottól gyűjtött adatkészletüket 2023 októberében publikálták. A robotok 527 adottságot mutattak be.

Minél több az adat, annál okosabbak a robotok. A kutatók két modellt építettek: az egyik helyi számítógépeken fut, a másik hozzáfér a webhez. Utóbbit a „vizuális józanészre”, a világ megértésének alapjára tanították, és amikor különféle robotokat működtettek vele, a laboratóriumi változatnál ötven százalékkal sikeresebben sajátítottak el adottságokat.

Meta: elég a generatív mesterséges intelligenciából, jöjjön a célalapú MI!

Általános vélekedés, hogy a generatív mesterséges intelligencia a mai fejlesztések csúcspontja, a legelőremutatóbb irányzat. Yann LeCun, a Meta (Facebook) MI-guruja másként gondolja: még a legfejletlenebb állatok is értelmesebbek a jelenlegi gépi értelemnél.

Szerinte a nagy nyelvmodellek (LLM-ek) szűk területeken ugyan létrehoznak az embert felülmúló szövegeket, alapvetően viszont a következő szó előrejelzésével működnek, és ebből a folyamatból hiányzik a kontextus valódi megértése, nincs kapcsolatuk a fizikai világgal. Hatásosan folyékony, de tárgyi tévedéseket tartalmazó, a józanész-szerű megértés hiányát jelző kimenetek az eredmény.

objective_driven_ai.jpg

Ezzel szemben az emberek és az állatok minimális adatból is tudnak tanulni, ügyesen alkalmazkodnak új szituációkhoz, az elsajátított ismereteket változatos kontextusokra alkalmazzák, azaz értik a világot és komplex dinamikáját. Ez a természetes intelligencia vezet a józanészhez, a fizika törvényeinek felfogásához, következtetéshez és érveléshez. A generatív MI távol van ettől, egyik kritikus korlátja a valódi megértés és innováció hiánya.

Mivel nem fogják fel a fizikai világ összetettségét, és nem generálnak józanész-válaszokat, nem is lehetnek tényszerűek, így pedig hiányzik belőlük a következményekkel járó alkalmazásokhoz szükséges mélység, megbízhatóság.

LeCun a célvezérelt MI-re történő váltásban látja a megoldást: a technológia újradefiniálását tartja célszerűnek. Mintázatfelismerő eszközből a világot az emberhez és állatokhoz hasonlóan értő, előrejelző és a környezettel ugyanúgy interakciókat folytató, belső világmodellt építő rendszerré alakítaná. Ezek a majdani rendszerek kimeneteket szimulálnak, a jövőre következtetnek, információalapú döntéseket hoznak speciális feladatok megvalósításához. Megértik a cselekvések és a következmények közötti összefüggéseket, valósidőben terveznek, alkalmaznak stratégiákat.

A célvezérelt MI nem inkrementális javulás, hanem tényleges ugrás az emberrel együttműködő, megoldásokat javasló, következményeikkel tisztában levő gépek felé.

A kutató elismeri: monumentális, jóval nehezebb feladatról van szó, mint sokan elképzelik. Ennek ellenére optimista, mert a jövő MI-je minden területen felül fogja múlni az embert. A változás nem egyik napról a másikra megy majd végbe, át is kell gondolnunk hozzá az MI-fejlesztés mostani megközelítéseit. A váltáshoz technikai innováció mellett az intelligencia fogalmának és mesterséges rendszerekbe integrálásának módját szintén újra kell definiálnunk.

Sokasodnak a kódíró ágensek

Sok szoftverfejlesztő félelme, hogy a nagy nyelvmodellekkel (LLM) nem lesz szükség humán kódolókra. Ebben a formában talán nincs igazuk, viszont a mesterséges intelligenciával dolgozók könnyen helyettesíthetik az MI-t nem használókat.

Az aggodalmas hangok felerősödtek, mert az utóbbi hetekben, hónapokban egyre többet hallani kódoló ágensekről.

kodolo_agensek0.jpg

Technikáik lehetővé teszik LLM-ek számára a tervezést, munkájukról való elgondolkodást, az egymással való együttműködést. A korábbi kódoló asszisztensekkel ellentétben, az ágensek jobbak a hosszabb feladatokban, és a saját munkájukat is ki tudják javítani.

A kódot kiegészítő/befejező eszközök, mint a GitHub Copilot vagy a Code Llama gyorsan elszaporodtak. A 2023-ban megjelent, nyílt forrású, a GPT-4-en alapuló generikus MI-ágens AutoGPT-t kódok írására és hibakeresésre, hibák kijavítására használják. Közben a chatbot-alkalmazásáról ismert Replit is elkezdte építeni automatizált kódjavításra szánt saját LLM-jét.

kodolo_agensek.jpg

Összességében nyílt forrású (open source) szoftverfejlesztői eszközök LLM-eken alapuló új hullámáról beszélhetünk.

A Cognition Devin rendszerére figyeltek fel először. A félautomata szoftverfejlesztő kérelem alapján kiválasztott felhasználói kör számára elérhető. Hozzá hasonlóan mások is „homokozó” (sandbox) dialógusokat szolgáltatnak természetes nyelvű utasításokhoz, továbbá parancssorokat, kódszerkesztőt és/vagy webes böngészőt. Az ágensnek ezeken keresztül kell tesztelnie a kódot, vagy megtalálnia a dokumentációt. (A homokozó az informatikai biztonság területén programok elkülönített futtatására szolgáló biztonsági mechanizmus.)

Megadunk nekik egy promptot, lépésről lépésre tervet generálnak belőle, majd megvalósítják a tervet. További információkat és utasításokat is kérhetnek, a felhasználó pedig megszakíthatja őket, hogy módosítsa a kérelmüket.

A jelenlegi legismertebb kódoló ágensek az Anthropic Claude 3-ját, a GPT-4-et és a GPT-3.5-öt használó Devika, a GPT-4-en alapuló OpenDevin és a GitHub adattárakban hibákat és más problémákat kezelő SWE-ágens.

Vírusírás nagy nyelvmodellel

Németország változatos ipari szektorainak tucatnyi szervezetét érte koordinált hackertámadás. A támadás egy részét külön figyelemmel vizsgálták a biztonsági szakemberek, mert önmagában a malware-ben ugyan semmi érdekes nem volt, viszont egyértelműnek tűnik, hogy a kódját mesterséges intelligencia generálta. Az MI generálta malware-t a TA547 IAB (Initial Access Broker) használta adathalász támadásokhoz.

Az IAB számítógépes rendszerekbe és hálózatokba beszivárgó, nem engedélyezett hozzáféréseket más rosszindulatú szereplőknek értékesítő aktor. Nagyon jó a biztonsági szempontból gyenge pontok azonosításában és kiaknázásukban, zsarolószoftveres (ransomware) csoportoknak és más rosszfiúknak nyújt fontos szolgáltatásokat. Általában közvetítőként teszi lehetővé a behatolást megfertőzött rendszerekbe.

ai_hackers.jpg

A támadások az új idők előhírnökei is lehetnek, pánikra viszont nincs még ok. A védekezés ugyanaz, független a program írójának kilététől. A következő évek nagy nyelvmodellek (large language models, LLM) írta vírusai nem lesznek kifinomultabbak az ember által kódoltaknál. A hackerek egyelőre tehetségesebb vírusfejlesztők a mesterséges intelligenciánál.

TA547 nem ismeretlen a pénzügyileg motivált cybertámadásokkal foglalkozó szakemberek előtt, Az évek múlásával a fejlesztési ciklusok iterációi, más malware-ek adaptálása, új technikák kipróbálása viszont mind felgyorsultak.

ai_hackers0.jpg

Támadásai rövid, személyeskedő e-mailekkel kezdődnek, általában valamilyen cégnek adja ki magát. Az e-mailek jelszóval védett ZIP-, azok tömörített LNK-fájlokat tartalmaznak. Utóbbiak aktiválják az infókat eltulajdonító Powershell szkriptet.

A Powershell az LLM-ek generálta kódok karakterjegyeit viseli, tehát a mögötte álló személyek valamilyen chatbotot használtak a megírásához.

Az MI megjelenésében semmi különös nincs. Hackerek ugyanúgy kísérleteznek a technológiával, mint bárki más. Kíváncsiak, hogyan könnyíti meg, teszi eredményesebbé és gyorsabbá tevékenységüket. Egyesek MI-vel kutakodnak a célponttal, emergens módon kialakuló gyengeségeivel kapcsolatban.

Egyelőre nincs bizonyíték arra, hogy a hackerek jobb malware-eket íratnak MI-vel, mintha saját maguk fejlesztenék a vírust. Malware-írásban még az ember az első, ráadásul az LLM-ek fejlesztői megtették a szoftvereik rosszindulatú használata elleni óvintézkedéseket.

Kérdés, meddig nincs fokozott veszély. Ha pedig jönnek a gép által írt szuper malware-ek, a védekezés nagyjából ugyanaz lesz, mint ma – csak gyorsabb és szofisztikáltabb.

Csótány-drón deríti fel az erdei lombkoronát

Dús vegetációval rendelkező környezetek folyamatos megfigyelése komoly kihívás tudósoknak – áll a Svájci Szövetségi Erdő, Hó és Tájintézet anyagában, majd a szerzők hozzáfűzik: egyes ágakból ugyan lehet mintákat gyűjteni, de a lombkorona mélyére még nem sikerült robotokkal, drónokkal behatolni, alaposan felmérni, feltérképezni azt.

Az intézet kutatói szerint az ágak rugalmassága okozza a legnagyobb problémát, a felderítést végző drónok rezgését, elbizonytalanodását.

csotany_dron.jpg

Sok más infokommunikációs alkalmazáshoz hasonlóan, a megoldást ezúttal is a természet, a biológia, annak másolása jelenti. A biomimikri jelen esetben is működik.

Az Intézet és az ETH Zürich szakemberei, a Pisai Egyetemmel együttműködve, állapították meg, hogy a csótányok testszerkezete lehet a megoldás. Az egyik legnagyobb undort kiváltó állat teste ugyanis áramvonalas és alacsony súrlódású anyagból áll.

A rovar fizikumával kapcsolatos megfigyeléseiket drónra alkalmazták. A gépet térbeli intelligenciával ruházták fel, érintési/tapintási (haptikus) visszacsatolásra képes. Ez azt jelenti, hogy reagál, amikor kapcsolatban, érintkezésben van a környezetével.

Az első teszteken sikeresnek bizonyult. Arrébb tolt leveles vagy levél nélküli faágakat, és elhaladt mellettük. A drón teste azonban nem volt annyira áramvonalas, mint a csótányé, és súrlódást is nehezebben bírta, így a kezdeti sikerek után, egy bizonyos pontot követően elakadt.

Következő lépésben mindenképpen orvosolni fogják ezeket a hiányosságokat. Például egyszerre kellene több akadályra eredményesen reagálnia, később pedig távolabbi területek biológiai sokszínűségét (biodiverzitását) mérheti.        

A YouTube figyelmeztette az OpenAI-t: ne használják videóikat modelljeik gyakoroltatásához

Amikor Mira Muratit, az OpenAI főmérnökét a Wall Street Journal arról faggatta, hogy milyen adatokat használtak a szövegből videót generáló Sora csúcsmodell trenírozásához, a CTO mellébeszélt.

„Egy alkotónak elvárásai vannak, ha feltölti kemény munkájának gyümölcsét a platformunkra. Ezek egyike a szolgáltatási feltételek betartása. Ennek értelmében átiratok és videórészek letöltése nem engedélyezett, mert egyértelműen megsértik vele a szabályzatot” – mondta néhány napja Neal Mohan, a YouTube vezérigazgatója.

youtube_openai.jpg

Magyarán, a YouTube-ot tulajdonló Alphabet, azaz a Google számára elfogadhatatlan, hogy az OpenAI temérdek videót használjon fel a platformról modelljei betanításához.

Egyre több kiadó, platform tiltakozik anyagaik ilyen jellegű – általában engedély nélküli – felhasználása miatt, és a támadások célkeresztjében a mesterségesintelligencia-kutatásokban élenjáró OpenAI, valamint közvetve a Microsoft áll.

youtube_openai0.jpg

Kérdés persze, hogy a tiltakozás mennyire hiteles az internetes keresést lényegében monopolizáló Google-hoz tartozó YouTube vezetőjétől. A Google ugyanúgy mások anyagain tanítja mesterségesintelligencia-modelljeit, mint az OpenAI, velük készül a keresőmotor MI-vel felerősített változata.

Tehát lényegében irrelevánsnak is tűnhet a vádaskodás, ráadásul, ha láttunk már Pixar-filmet vagy hasonlókat, jól tudjuk, hogy – elvileg – semmi új nincs a számítógép által generált videókban, „csak” az OpenAI módszere és a tartalom is más. Legfőbb – és óriási – különbség, hogy az utóbbi anyagainak létrehozásához ember (humán input, humán kreativitás, humán munka) sem kell már, míg a Pixar-mozikhoz nagyon is szükség van rá.

Sora látványos videói egyszerű promptok alapján pillanatok alatt elkészülnek, az MI mindent megcsinál, az eredmény elragadó. Egyre tökéletesebbek lesznek, egyre kevésbé kérik rajta számon a humán oldalt.

A gyakorlóadatokat illetően viszont még pereskedések, óriási jogi csatározások, szabályozások várhatók.  

Jön az Apple nagy nyelvmodellje, félhet a ChatGPT

Az Apple eddig kimaradt a ChatGPT-vel jelképezett mesterségesintelligencia-forradalomból, a generatív MI diadalútjából, a nagy nyelvmodellek (large language models, LLM) fejlesztéséből. Tavaly már röppentek fel hírek változásokról, hogy az almás cég bekapcsolódna a versenybe, nagy titokban folyó kutatásfejlesztésekről, de semmi konkrétum nem látott napvilágot, semmit nem jelentettek be.

Most ismét úgy tűnik, hogy valami készül náluk, és a Siri felturbózásáról szóló híresztelések beigazolódhatnak. A vállalat egyik frissen megjelent kutatási anyagában ugyanis bepillantást nyerhetünk abba, mi is készül náluk. Röviden: Siri mesterségesintelligencia-kapacitását bővítik, hosszabban: négy változatban fejlesztenek egy LLM-et.

apple_nyelvmodell0.jpg

A nyelvmodell neve ReALM a Referencia-felbontás nyelvi modellezésként (Reference Resolution as Language Modeling) rövidítése. Segíti Sirit a kontextus és így az egész beszélgetés megértésében, ám ennél is fontosabb, hogy a – cég szerint – még a legkisebb modell is a ChatGPT-vel hasonló szinten teljesít.

A ChatGPT képfájlokat és PDF-eket képes feldolgozni, a teljes képernyőt (onscreen) viszont nem tudja elolvasni, és így a teljes tartalomra sem tud reagálni. ReALM igen, ami versenyelőnyt jelent.

A modell négy változatban/méretben készül. A számok a millió és milliárd paraméterre vonatkoznak: ReALM-80M, ReALM-250M, ReALM-1B, ReALM-3B.

Mérték a teljesítményét (benchmark) és összehasonlították az OpenAI GPT-3.5-ével és a GPT-4-ével is. Az OpenAI és a Microsoft számára egyaránt nyugtalanító hír, hogy a ReALM-80M, azaz a legkisebb modell is a GPT-4 szintjén van, ami arra enged következtetni, hogy a többi sokkal jobb teljesítményre képes.

Az anyag szerzői hangsúlyozzák, hogy a ReALM előrelépést jelent a hasonló funkciókkal rendelkező rendszerekkel szemben, és a legkisebb változat is akár öt százalékkal jobb az onscreen információ feldolgozásában.

Egyelőre nem tudni, hogy az LLM mikor kerül piacra. Valószínűleg a vezetőség beszél majd róla a cég júniusi éves fejlesztői konferenciáján.

A mesterséges intelligencia biológiai kockázatainak kezelése

Több mint százötven ázsiai, európai és észak-amerikai biológus önkéntes kötelezettségvállalást írt alá a fehérjék tervezésére használható gépitanulás-modellek belső és külső felügyeletéről. A szintetikus biológiai kutatásokkal kapcsolatos tíz vállalás nagy vonalakban és elég általánosan (kevés konkrétummal) arról szól, hogy elkerülik az esetleges károkat okozó vizsgálódásokat, és támogatják a fertőző betegségek kitörésére és hasonló vészhelyzetekre vonatkozókat.

Elkötelezték magukat a fehérjeszerkezeteket a felhasználó által meghatározott jellemzők, például az alak vagy a hosszúság alapján generáló modellek kockázatainak kiértékelése mellett. Magát a kockázatelemző módszert is felülvizsgálják.

bio_risk.jpg

A DeepMind fehérjeszerkezeteket felfedező AlphaFold modellje alapján speciális tulajdonságú fehérjék tervezését biztosító alkalmazásokat fejlesztettek. Kimeneteik segítenek betegségek kezelésében, javítják a mezőgazdaság termelékenységét, ipari folyamatokban eredményes enzimek létrehozásában vesznek részt. A hibák és a helytelen használat miatti aggályok miatt viszont nemzeti és nemzetközi szervezetek figyelik ezeket a tevékenységeket.

A biológusok vállalása a modellek biztonságos használatáról sokat segíthet az ilyen problémák kezelésében.

bio_risk0.jpg

Csak olyan szolgáltatóktól szereznek be szintetikus DNS-t, akik a potenciálisan veszélyes molekulák előállítására való tekintettel szigorúan szűrik azt. Meg is állapodtak új szűrési módszerek kidolgozásának a támogatásáról.

Nyilvánosságra hozzák kutatásaik lehetséges eredményeit, kockázatait és a kockázatok mérséklésére tett erőfeszítéseiket. Rendszeres üléseken felülvizsgálják a szintetikus biológia lehetőségeit, és beszámolnak a nem etikus, megkérdőjelezhető praktikákról.

Magukat a vállalásokat is folyamatosan felülvizsgálják.

Az MI esetleges biológiai fegyverként történő használata a mesterséges intelligencia biztonságával foglalkozó kutatások visszatérő témája. A jelenlegi felelős MI-ről és fehérjetervezésről szóló megállapodást tavaly év vége felé dolgozták ki a Washington Egyetemen. Nagyjából egyidőben tartották az MI Biztonsági Csúcsot, ahol szintén behatóan foglalkoztak a témával.    

Újabb mesterségesintelligencia-céget olvaszt magába a Microsoft

Szokatlan üzlet keretében a Microsoft átvette az egykor szárnyaló mesterségesintelligencia-startup, a Mustafa Suleyman (hajdani DeepMind társalapító és a tavaly megjelent Következő hullám bestseller szerzője) által alapított Inflection nagy részét.

A Microsoft alkalmazza a vezérigazgató Suleymant és a cég dolgozóinak többségét, közel 650 millió dollárt fizetve a modellekhez való hozzáférésért és a jogvédelemért. Az Inflection a fogyasztók kiszolgálásától a nagyvállalatokra helyezi át a hangsúlyt.

inflection.jpg

A sok tehetség, a hatékony támogatás és a többmilliárd dolláros érték ellenére, az Inflection gondokkal küszködött. Az egyik legizgalmasabb és legígéretesebb startupból áramvonalasított vállalatiszoftver-szolgáltatóvá vált, ami persze a chatbot-szektor versenyképességét is remekül szemlélteti.

A céget Suleyman, Karén Simonyan és a LinkedIn-igazgató Reed Hoffman alapította, részben Microsoft-támogatással. Eredetileg az OpenAI és az Anthropic vetélytársaként pozícionálták magukat, MI-asszisztenseket próbáltak fejleszteni. Legismertebb termékük az érzelmi támogatást nyújtó Pi chatbot.

inflection0.jpg

Satya Nadella, a Microsoft vezérigazgatója hónapok óta folytatott tárgyalásokat Suleymannal, aki magával akarta vinni a csapatot. Formálisan nem vásárolták fel a függetlenként, különálló entitásként maradt Inflectiont, és a 650 millió is a fele a tavaly kapott 1,3 milliárd dolláros befektetésnek, a becsült négymilliárdos értéktől pedig még messzebb van.

A Microsoft 620 milliót fizetett az Inflection modelljeinek nem kizárólagos licencéért. A legnagyobb nyelvmodell, az Inflectiom-2.5 és az API-k (alkalmazásprogramozói felületek) az Azure felhőszolgáltatáson lesznek elérhetők.

A hetvenfős csapat zömét, köztük Simonyant is a Microsoft alkalmazza új Microsoft MI részlegében. Az Inflection harmincmillió dollárért lemondott a Microsoft munkaerő-kölcsönzési tevékenységével kapcsolatos törvényes jogokról.

Az összegből és a bevételekből az Inflection kompenzálja a saját tőkéjüket a startupban megtartó befektetőket.

A Microsoft korábbi MI-csapatának egy részét megtartó új szervezet a nagyvállalat mesterségesintelligencia-törekvéseit felügyeli a jövőben: fogyasztói termékeket, mint a Bing, Copilot asszisztenseket stb.

A szokatlan szerződést (mivel nem akvizíció) valószínűleg a trösztellenes vizsgálatok elkerüléséért kötötték.  A Microsoft és az OpenAI kapcsolata – ami változatlanul stratégiai prioritás – már eleve felkeltette az USA, az Egyesült Királyság és az EU törvényhozóinak a figyelmét…     

Több környezetben is működhet ugyanaz az ágens

Ágensek különféle környezetekben történő feladat-végrehajtásra való betanításával közelebb kerülünk ahhoz, hogy bármilyen szituációban tudjanak dolgozni – és természetesen az általános mesterséges intelligenciához (AGI) is. Valahogy úgy, mint az ember, és ha megvalósul, akkor a robotikában, szimulációban, valamint a játékokban várhatók az első alkalmazások.

Eddig tipikusan úgy tervezték őket, hogy meghatározott, tehát egyetlen szoftverkörnyezetben tevékenykedjenek, de a Google és a kanadai Brit Columbia Egyetem Skálázható, Utasítható Több-világos Ágense (SIMA) változatos közegekben – hét videójátékban és négy kutatási környezetben, háromdimenziós virtuális világokban – tanulta meg szöveges utasítások követését.

agensek0.jpg

A rendszer architektúrája több transzformer és más neurális hálóból áll. Megtanították neki, hogy adatsort és tíz másodperces feladatokra tördelt játékmenetet, képernyőn megjelenő képeket, szöveges utasításokat, billentyű-lenyomásokat és egérmozgatást használva utánozzon humán játékosokat.

Olyan játékokkal dolgoztatták, mint például a harmadik személyben, kecske formában kivitelezendő Goat Simulator 3 (goat = kecske), az első vagy harmadik személyes űrbéli felfedező- és túlélőkaland No Man’s Sky, az elsőszemélyes bányászó-építő Hydroneer.

agensek.jpg

A megadott utasítások és a képernyő-kép egy kockája alapján előre gyakoroltatott transzformer-pár szövegekhez és képekhez beágyazásokat generált. Egy másik, a következő képkockát előrejelző transzformer videóbeágyazásokat hozott létre.

A szöveges, képes és videóbeágyazások alapján transzformerek elsajátították, hogyan jelenítsék meg a játékot, majd a játékreprezentációból kiinduló újabb (nem transzformer) háló megtanulta elkészíteni a kapcsolódó billentyű- és egérműveleteket.

SIMA teljesítményét kilenc kategóriában értékelték ki. A Goat Simulator 3 feladatainak negyven százalékát abszolválta, a No Man’s Sky-ban 34 százalékot ért el, míg a humán játékosok átlaga hatvan volt. Az egyetlen játékra specializálódott ágenseknél másfélszer jobban teljesített.

A SIMA a Google korábbi kísérletei folytatásának tekinthető. A nagyvállalat ugyanis fejlesztett már az emberrel egy-egy játékban (Go, klasszikus Atari-játékok, StarCraft II) rivalizáló ágenseket.          

süti beállítások módosítása