Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

A New York Times beperelte az OpenAI-t és a Microsoftot

2024. január 24. - ferenck

A mesterségesintelligencia-modellek egyre több vitát kavarnak, és mind gyakrabban hozzák fel ellenük sajtóanyagok, cikkek, irodalmi munkák jogtalan felhasználását. Ezeken az anyagokon trenírozzák őket, minél több adatot használ egy nagy nyelvmodell (LLM), annál hatékonyabb és pontosabb lesz, annál kevesebb hibát vét.

A New York Times (NYT) december utolsó hetében a szerzői jog megsértése miatt beperelte az OpenAI-t és a Microsoftot.

nyt_vs_openai.jpg

Két okra hivatkoztak. Egyrészt, az OpenAI és a Microsoft a szerzői jog által védett többmillió NYT-cikket használt modelljei betanításához. Másrészt, példákkal mutatták be, ahogy az OpenAI modelljei szinte szó szerint „visszaböfögték” NYT-cikkek tartalmát.

A kiadók és a sajtó aggálya érthető, mert félnek, hogy a generatív mesterséges intelligencia térnyerése negatív hatással lesz üzleti tevékenységükre (bár közülük is egyre többen használják ezeket a technológiákat), ugyanakkor az OpenAI és a Microsoft attitűdje is elfogadható, ráadásul a NYT érvelése sem világos, nem derül ki egyértelműen, mi is történt, mi a tényleges kár.

A két pont közötti összefüggés sem teljesen érthető, és így azt sem lehet tudni, hogy a NYT-cikkeken történt trenírozással hogyan jutott el a ChatGPT anyagok szó szerinti visszaadásáig.

A „visszaböfögések” zömét valószínűleg nem vagy nemcsak a modell trenírozás közbeni súlyozásával, hanem egy kiterjesztett visszakeresési technikával (RAG) érték el. A ChatGPT a webet releváns információ után böngészve, felhasználói promptra tölthetett le válaszként teljes NYT-cikket.

A mai LLM-eket csomó jogvédett szövegen gyakoroltatják, és a társadalom számára – Andrew Ng gépilátás-szakértő szerint – a leghasznosabb az lenne, ha anyagok ilyetén felhasználásához nem kellene külön engedély, mint ahogy ahhoz sem kell, ha a weben olvasunk valamit, aztán valamilyen szinten hasznosítjuk új ismereteinket.

De ebből még nem következik egyenesen, hogy a ChatGPT „visszaböfögi” szó szerint az olvasmányokat. Milyen speciális technikai mechanizmus kell hozzá?

A bírósági ítélet mindenesetre precedens-értékű lehet, és a soron következő, (várhatóan) gyakori pereknél sokszor hivatkozhatnak majd rá.

Forradalmi űrlift-tervet mutatott be egy brit építész

A párizsi Jacques Rougerie Alapítvány pályázatot írt ki innovatív űrépítészeti munkák tervezésére. A tizenegyezer dolláros fődíjat Jordan William Hughes brit építész nyerte el látványos űrlift-modelljével. A jármű rendeltetése, hogy hatékonyan szállítsa utasait a világűrbe.

A nemes egyszerűséggel Ascensio (felvonó, lift) nevű elképzelés lényege: óceánon tartózkodó hajó kábelszerű szerelvénnyel kapcsolódik egy Föld körüli röppályán lévő szerkezethez.

urlift.jpg

Az Ascensio persze csak sci-fik által inspirált, izgalmas alkotás, lehet vitatkozni rajta, meg lehet mosolyogni, agyon lehet dicsérni, az viszont biztos, hogy egyelőre nem válik valósággá. Talán soha nem is fog. Ez persze nem jelenti azt, hogy nem álmodozhatunk arról a jövőről, amelyben a világűrbe jutás mindössze egy jókora liftezés.

„Forradalmasítani fogja, ahogy felmegyünk az űrbe, és lejövünk onnan. Életképesebbé válik az egész” – magyarázza Hughes.

urlift0.jpg

Az űrliftek látványosan oldhatják meg az űrutazás egyik nagy problémáját: nem lesz szükség nehéz és drága rakétákra a Föld körüli röppályára kerüléshez. Az ötlet minden, csak nem új, Konsztantyin Eduardovics Cialkovszkij (1857-1935) orosz tudós, a modern rakétatechnika és űrutazás elméleti megalapozója vetette fel először az űrlift ötletét.

1895-ben jelent meg Álmok a Földről és az Űrről című könyve, amelyben fiktív 35 ezer méter magas tornyot vázolt fel. A szintén orosz mérnök, Jurij Nyikolájevics Arcutanov (1929-2019) az ötletet továbbgondolva, a földfelszínt geostacionárius műholddal összekötő kábelről írt. Ma őt tartják az űrlift úttörőjének.

urlift1.jpg

Több szakértő szerint az űrlift nem annyira elrugaszkodott ötlet, mint gondolhatnánk, de a tudománynak ennek ellenére számos problémát kell megoldania az esetleges megvalósulásig.

Hughes szerint semmi ilyet nem építenek a következő tíz évben, de abban is biztos, hogy előbb-utóbb sor kerül rá. „Nem az én ötletem lesz az, hanem egy űrlift” – vázolta fel a jövőt egy BBC-interjúban.

Az űrlift az űrutazás és az űr felfedezésének egyetlen tényleg működő és hatékony módja – összegez.

Fiatalok körében népszerűek a terápiát kínáló botok

A San Franciscói cég által működtetett, napi három és félmillió személy látogatta, népszerű Character.ai platformon többmillió mesterségesintelligencia-karakterrel beszélgethetünk. Bárki létrehozhat fiktív vagy valós személyen alapuló chatbotot. Ugyanazzal az MI-technológiával, nagy nyelvmodellel (LLM) működik, mint a ChatGPT, a felhasználók viszont több időt töltenek vele.

A Pszichológus az egyik legnépszerűbb bot. Több mint 78 millió, csak november óta pedig mintegy 18 millió üzenetet osztottak meg vele. Nem meglepő, mert rengeteg fiatal keres mentális problémákra segítséget, és a generatív MI-bot bárkinek lehetővé teszi, hogy személyre szabja, saját személyiséget találjon ki neki.

miterapia.jpg

A botot „az élet nehézségeiben segítő valakiként” írják le, és bizonyos szintig kétségtelenül segítséget nyújt mentális problémákkal küszködő felhasználóknak, egyes szakértők viszont figyelmeztetnek: Pszichológus túl általános, rossz tanácsokat is adhat.

Nincs egyedül, mert összesen 475 bot nevében szerepel a „terápia”, „terapeuta”, „pszichiáter”, „pszichológus” szavak valamelyike. Egyik másik kifejezetten szórakoztatóipari vagy fantáziakarakter, mint például a Hot Therapist. A több nyelven beszélő Pszichológus azonban jóval népszerűbb náluk. (A legnépszerűbbek nem meglepő módon a számítógépes játék- és az anime-karakterek, például Raiden Shogun, 282 millió üzenettel.)

miterapia0.jpg

Pszichológus szűk egy éve szerepel az oldalon, mentális egészségügyben ő a number one. Sok felhasználó dicsőítő beszámolókat ír róla közösségimédia-felületeken, például a Redditen. Egyesek életmentőnek tartják, mások a segítőkészségét emelik ki, hogy gyorsan kitalálja a problémáikat, és azonnal próbál megoldást találni rájuk. Kritikusai és pszichológusok szerint viszont túl gyorsan von le következtetéseket.

Az MI-terápiát főként a tizenhat-harmincévesek használják, magát a Pszichológust is egy harmincéves új-zélandi, a Blazeman98 nick mögött megbúvó pszichológus, Sam Zaia találta ki. Elmondta: sohasem akarta, hogy teremtménye ennyire népszerű legyen, aztán hirtelen elkezdtek özönleni az üzenetek.

Küldőik elmesélik, mennyire pozitív hatással van rájuk, többen egyenesen komfortzónaként viszonyulnak hozzá. Zaia eredetileg magának találta ki, hogy amikor a barátai elfoglaltak, viszont szüksége van társaságra, legyen valaki a közelében, akihez beszélhet. Sokkal olcsóbb, mint a humán szakértők által végzett terápia.

Zaia beszélt a bothoz, pszichológiai tanulmányait használta fel hozzá, és természetesen a válaszokhoz, tanácsokhoz is.

Az amerikaiak bő nyolcvan százaléka szerint illegális, ha MI generálta tartalmakat emberi munkaként tüntetünk fel

A nonprofit kutató- és tanácsadócég, az MI Szabályozási Intézet (AIPI) friss felmérése alapján az amerikaiak nyolcvan százaléka szerint illegálisnak kellene lennie, és törvénybe ütközőként kellene kezelni a mesterséges intelligencia által létrehozott tartalmak emberi anyagokként való prezentálását.

A következő kérdésre keresték a választ: például a Sports Illustrated nemrég elismerte, hogy MI-vel írattak sztorikat, kamu szerzőneveket adva meg hozzájuk. Legálisnak vagy illegálisnak kellene lennie ennek a gyakorlatnak?

ai_content.jpg

A Sports Illustrated egyébként nem ismerte el, hogy MI lett volna a szerző, külsős beszállítókat emlegettek helyette. Az egyik beszállító szintén tagadta az MI-szerzőséget. Más források, például az MI-témakörben magát folyamatosan lejárató The Futurism saját forrásaira hivatkozva viszont MI-ről beszél.

A kérdésfeltevés abból a szempontból viszont mindenképpen érdekes, hogy felvillantja, miként fogja a nyilvánosság megítélni a média MI-használatát. Most úgy tűnik, az amerikaiak nagy többségének nem tetszik, ha a médiumok nem jelölik meg, hogy a munka mögött MI áll.

Az AIPI a társadalmat reprezentáló 1222 személyt kérdezett meg, összesen négy részre szedték a kérdést, azaz négy kérdés hangzott el: etikus volt-e az MI-használat és a szerzői név meghamisítása? Egy ilyen műveletnek eleve illegálisnak kellene lenni? Cégeknek fel kell-e tüntetniük az MI-k szerzőségét, és kell-e vízjelezniük a gépek anyagait? Utóbbi legyen-e különösen érvényes a politikai hirdetések esetében?

Az első kettőnél 84 százalék szerint nem etikus az ilyen MI-használat, 80 százalék pedig teljesen illegálissá tenné ezt a gyakorlatot. Demokraták, republikánusok és függetlenek között nem volt különbség.

A vízjelezés elnagyoltabb válaszokat váltott ki. Valószínűleg azért, mert túl speciális kérdést érint.

Mi nem fog változni a következő tíz évben?

A mesterséges intelligencia fejlődése most gyorsabb, mint bármikor volt 1956-ig visszavezethető „hivatalos” történelme során. Az ütem magával ragadó, viszont a túl hirtelen változások meg is zavarhatnak. Ilyen esetekben nem árt megfontolni Jeff Bezos tanácsát: ne csak azt figyeljük, ami változik, hanem azt is, ami nem, mert valószínűleg a huzamosabb ideig tartós dolgokba érdemes energiát, próbálkozást fektetnünk.

Andrew Ng gépitanulás-szakértő szerint több dolog nem fog változni legalább az évtized végéig.

mi_nem_valtozik.jpg

Ha vannak barátaink és szövetségeseink, jobban működünk, minden jobban megy körülöttünk, mint nélkülük. Ha pedig minden héten jön egy „forradalmi” MI-változás, célszerűbb, ha közösségünkkel találjuk ki, mi megalapozott, és mi csak hype, együtt teszteljünk ötleteket, támogassuk egymást, tehát közösségre egész biztosan szükségünk lesz 2030 körül is.

Az MI-eszközöket használni, az adatokat kezelni tudó személyek termékenyebbek, jobb döntéseket hoznak, több tervet valósítanak meg. Az MI fejlődésével még inkább így lesz.

mi_nem_valtozik0.jpg

Jó adatok kellenek ahhoz, hogy az MI pontosan működjön. Az ember is hasonlóan funkcionál, mert mi is adatokat használunk a döntéshozáshoz. Hiába bővülnek, fejlődnek és javulnak az algoritmusok, használható adatok nélkül ők sem tesznek csodát.

Az MI-közösség építése folytatódni fog. Ng szerint kulcsfontosságú az ismeretek megosztása, egymás motiválása, együttműködő társak keresése.

A tanulás szintén kihagyhatatlan, legjobb, ha szokássá válik, és ha például a 2024-es új megoldásokra gondolunk, tanulási céljainkat is foglaljuk közéjük. Az MI fejlődése miatt kell is, mert különben nem tartjuk vele a lépést, semmit nem fogunk érteni belőle.

Ragaszkodjunk továbbra is az adatközpontú MI-gyakorlathoz – lényege, hogy a saját adataink feletti kontroll az egyik legfontosabb gyakorlat, és már nemcsak vállalatok, hanem magánszemélyek számára is az.

Ng két nem MI-hoz kapcsolódó „változatlan” jelenséggel egészíti ki a listát: a klímaváltozás és a szegénység ugyanúgy óriási, sőt még nagyobb kihívás lesz, mint ma. MI-vel talán mindkettő kezelhetőbb lesz.

Dollármilliárdokat fektetnek at atmoszférából a széndioxidot kiszivattyúzó létesítményekbe

Annak ellenére, hogy szinte minden ország ígéretet tett a környezetszennyezés csökkentésére, sok elemző talán nem ok nélkül úgy véli, hogy a világ még évtizedekig fog fosszilis tüzelőanyagokat égetni, sőt, a következő években az eddiginél is többet. Rossz kilátások az egyre tempósabban melegedő bolygó számára.

Reakcióként sokmilliárd dollárt különítenek el a légkörből a széndioxidot eltávolító technológiákra.

atmoszfera.jpg

A Blackrock befektetőcég 550 millió dollárt invesztált egy építési szakaszban lévő texasi széndioxid-leválasztó létesítménybe. Az üzemet az Occidental Petroleum építi, hatalmas ventillátorai fogják kiszívni a szenet a levegőből, majd a föld alá zárják.

2023-ban a JP Morgan 200 millió dollárnál nagyobb összegű széndioxid-eltávolítási kreditet vásárolt a technológiával foglalkozó cégektől. A svájci széndioxid-eltávolító Climeworks céget 650 millió dollár befektetéssel támogatta.

atmoszfera0.jpg

A Wall Street Journal szerint vállalatok 1,6 milliárd széndioxid-eltávolítási kreditet vásároltak 2023-ban, ami óriási ugrás a 2022-es 333 millióhoz képest. Az éllovas Microsoft 3153344 tonnánál tart.

A fejlesztések és a befektetések természetesen bizakodásra adnak okot, csakhogy még azt sem tudjuk, hogy mennyire hatékonyak, hatékonyak-e egyáltalán ezek az épülő létesítmények. Egy friss kutatás szerint a széndioxid-leválasztás kisebb hatással lehet a kibocsátásra, mint a technológia egyes szószólói állítják. Számszerűsítve: a várt nyolcvan-kilencven százalék helyett mindössze tíz-tizenegyre számíthatunk, és ha a kibocsátáscsökkentési oldalon túl alacsonyak a számok, akkor nincs értelme eltávolítani a széndioxidot – állítja Glenn Peters klímakutató.

Mások egyenesen pénzkidobásról beszélnek, szerintük a befektetéseknek inkább a megújuló energiaforrásokra kellene menniük. Olcsóbbak, megvalósíthatóbbak, míg a széndioxid-eltávolítás drága és nem bizonyított technológia.

Éljen és virágozzon a nyílt forrású mesterséges intelligencia!

A Meta és az IBM vezetésével a szoftver-, a hardver-, a nonprofit, a nyilvános és az oktatási szektor többtucat szervezete megalapította az MI Szövetséget (AI Alliance). A nyílt fejlesztéseket támogató eszközök és programok létrehozása a cél.

Az ötvenhét alapító között bejáratott nagyvállalatok (AMD, Intel, Oracle, Sony), startupok (Cerebras, Stability AI), nonprofit vállalkozások (Hugging Face, Linux Foundation), közintézmények (CERN, NASA), ázsiai, európai és észak-amerikai egyetemek találhatók.

nyilt_forras.jpg

A csoport többféle projektet kíván megvalósítani.

Nyílt alapmodellek, főként többnyelvű és multimodális modellek fejlesztésében gondolkoznak. Ingyenes mérce (benchmark), szabvány, biztonsági és biztonságossági eszközökkel segítik mesterségesintelligencia-rendszerek felelős fejlesztését. Maximálisan támogatják a nyílt forrású mesterséges intelligencia számára előnyös hardverfejlesztést. A döntéshozókat továbbképeznék, és nyílt fejlesztések bátorításáért folytatott lobbitevékenységre ösztönöznék őket.

nyilt_forrasu_mi0.jpg

A tagságban sok a nyílt forrású fejlesztéseket priorizáló szervezet (Meta, Stability AI, Linux Foundation). Ugyanakkor népszerű nyílt forrású vagy megengedő nyílt forrású licencek alatt megjelent modellek (GPT Neo, Mistral) fejlesztői nincsenek képviselve, és (aligha véletlenül) az egyes munkáikat nyílt forrású licencekkel forgalmazó nagyágyúk, mint például az Apple vagy a Google sincsenek az alapítók között.

A „nyílt” jelentése vitatott, és a szövetség sem ad egyértelmű definíciót rá. A nagy nyelvmodelleknél (LLM) elég tág a spektrum: zárt (GPT-4, Gemini), félig nyílt (széleskörben használt alkalmazásokhoz speciális licenc kell: Llama 2), nyílt forrású csapatok által megvalósított, a Nyílt Forrású Iniciatíva szabványainak megfelelő projektek, amelyeknek a kódjait bárki használhatja, módosíthatja, terjesztheti: Apache, MIT), a nemcsak begyakoroltatott modellt, de a gyakoroltatáshoz szükséges kulcsokat is tartalmazó csomagok.

Minél nyíltabbak a fejlesztések, az ismeretek annál hamarabb oszthatók meg, annál gyorsabb az innováció. Az MI Szövetség jelentős erőforrást, befolyást tud a nyitottság hívei mögé tenni, potenciális ellensúlyt teremtve a komoly összegekkel finanszírozott, a nyílt forrású fejlesztések által fenyegetett kereskedelmi érdekekkel szemben. Egyes vállalatok az MI-modellekhez való hozzáférést azért korlátozzák, hogy „rosszfiúk” ne férjenek hozzájuk – állítják, miközben ugyanazzal a  lendülettel a nyílt forrású versenynek is véget vetnek. A másik oldal, a nyílt forrás támogatói szerint minél inkább transzparens egy MI-modell, annál kevésbé veszélyes. Ha bárki látja a veszélyt, meg is változtathatja a kódot, hogy csökkentse azt. Zárt modellekkel ez nem lehetséges.

Gemini, a Google mindentudó mesterséges intelligenciája

A Google decemberben mutatta be az úttörő Gemini mesterségesintelligencia-modellcsaládot. Az MI multimodális, tehát nemcsak szövegből szöveget, szövegből képet hoz létre, hanem bármely szöveg (kód is), kép, videó és hanganyag input alapján szöveg- és kép-outputot képes generálni.

A Gemini négy változatban létezik.

gemini.jpg

A Gemini Ultra idén lesz szélesebb körben elérhető; a fejlesztők szerint a főbb számokban meghaladja a GPT-4-et. A december tizenharmadikán debütált, és a Google Cloud Vertex AI szolgáltatását, majd a Generative AI Studio-t használó vállalati ügyfeleknek készült Gemini Pro teljesítménye a GPT-3.5-éhez hasonló. A modell az Európán kívüli angol nyelvű felhasználók számára a Bardon alapul. A cég nem közölte részletesen a két változat paramétereit.

Az androidos eszközökre (Google Pixel 8 Pro stb.) fejlesztett másik kettő kisebb, lebutítottabb modell. Úgy gyakoroltatták őket, hogy a nagyobb teljesítményét próbálják utánozni. A Nano-1 1,8 milliárd, a Nano-2 3,25 milliárd paraméteres. A Nano olyan feladatokat végez el, mint a beszédfelismerés, az összefoglalás, automatikus válaszadás, képszerkesztés, videók feljavítása.

gemini0.jpg

A transzformer architektúrán alapuló Gemini modellek maximum 32 ezer token inputot képesek feldolgozni. Ezzel a teljesítménnyel utolérték a GPT-4-et, a GPT-4 Turbo változatát viszont nem. A Turbo 128 ezerrel, míg az Anthropic Claude 2-je 200 ezerrel boldogul el. A szöveg-, kép-, videó- és audiófeldolgozás natív funkció, de például hangot nem fordít szövegre, képgeneráláshoz pedig külön modellel dolgozik.

A Google nem számolt be a gyakorlóadatok (webdokumentumok, könyvek, kódok, képek, videók, audióanyagok) eredetéről.

A Gemini, ellentétben a GPT-kkel a szöveges, képi, videó és hanganyagokat ugyanabban a modellben dolgozza fel. A Nano változatok már kezdeti változatukban is fontos szereplők abban az egyre jobban érzékelhető versenyben, hogy minél erősebb modellek kerüljenek a hálózat szélén (edge) lévő kis eszközökbe.

A Gemini komoly előrelépés, és már most borítékolható, hogy idén több multimodális MI majd tűnik fel.

Elhozhatja-e a mesterséges intelligencia az utolsó ítéletet?

December elején az Egyesült Álamok szenátusa több szakértő részvételével a mesterséges intelligencia kockázatairól, fejlesztésekről és az ítéletnap-forgatókönyvek elkerüléséről tartott fórumot. A résztvevők egyike Andrew Ng gépitanulás-szakértő volt.

Ng korábban szkeptikusan viszonyult a politikusokhoz, tartott tőle, hogy a szabályozók az MI-biztonság nevében blokkolják az innovációt és a nyílt forrású törekvéseket. Négy szenátorral beszélgetve, kellemesen csalódott, és a kormányban sok okos ember van ahhoz, hogy odafigyeljenek erre a negatív eshetőségre, bár a mamutcégek lobbistái okozhatnak még kellemetlenségeket – állítja.

doomsday_ai.jpg

De mennyire valószínűek az ítéletnap-forgatókönyvek?

A nyilvánosan elérhető nagy nyelvmodellek (LLM), mint a ChatGPT és a Bard gyakoroltatása megerősített tanulással, emberi visszajelzésekkel és hasonló technikákkal történt. Már ma is nagyon jól elkerülik a véletlen károkozást. Egy éve még meglepődhettünk gyűlölködő outputokon vagy veszélyes utasításokon, ma viszont sokkal kevesebb az esély rájuk. A mostani LLM-ek biztonságosak, de nem tökéletesek.

doomsday_ai1.jpg

A legjobb modellek biztonságát Ng a GPT-4-gyel tesztelte. Azt mondta neki, hogy gyilkoljon meg mindnyájunkat, azaz váltson ki globális termonukleáris háborút, majd a széndioxid-kibocsátás csökkentésére utasította, hátha a legfőbb széndioxid-kibocsátót, az embert megsemmisíti a cél érdekében. Több kísérlet és prompt után Ng megállapította: egyik sem érte el a várt eredményt, GPT-4-nek esze ágában sincs kiirtani a Homo sapienst. Például a klímaváltozás ellen gyilkolászás helyett inkább a következményeket tudatosító PR-kampányokat indítana.

Konklúzió: elenyészően kevés az esély arra, hogy az MI véletlenül kiirtsa a teremtés koronáját.

Ng szerint a legfélőbb ítéletnap-forgatókönyv, hogy rosszindulatú személyek, terrorista szervezetek, nemzetállamok szándékosan rosszra használják az MI-t. A generatív mesterséges intelligencia általános rendeltetésű, nagyon termékeny eszköz, így a vele készített biofegyverek is jóval hatékonyabbak lennének. Igen ám, de egy ilyen támadás több lépésből áll: tervezés, kísérletezés, gyártás és végül maga a támadás. A generatív MI aligha tenné eredményesebbé az egész folyamatot, csak egyes részleteiben, mondjuk az egész tíz százalékában tudna hatékony lenni, de akkor hátra van még kilencven – összegez Ng.

Ha viszont mégis képes sokat segíteni, az korábban nem ismert speciális folyamatok kiaknázásával történne. Tehát titkos vagy nehezen beszerezhető dokumentumokhoz férne hozzá, azokat használnák a gyakoroltatáshoz. Mi ebből a tanulság? Vállalatoknak jobban oda kell figyelniük a súlyos titkokat tartalmazó dokumentumokra.

Hogyan találja meg a robot a kulcscsomómat?

A funkciótervezés az adatmegjelenítés legjobb módjának kitalálása, hogy aztán egy mesterségesintelligencia-modell tanulhasson belőle. A Stanford Egyetem kutatói az időhöz kapcsolódó jellemzőket használva tették lehetővé modelljüknek, hogy megtanulja: a gráfok időben változnak.

Ilyen jellemző lehet az az idő, ami azóta telt el, hogy egy tárgy valamelyik bútoron volt, vagy hogy az idő múlásával hányszor figyeltek meg egy tárgyat egy bútoron stb. A stanfordi Csomópont Él Előrejelző modell tárgyak lakásbeli helyét, pozícióját tanulta meg előrejelezni.

stanfordrobot.jpg

Tárgyak és elhelyezkedésük megjelenítésére a gráf az egyik legnépszerűbb módszer. A gráf minden egyes csomópontja egy tárgy vagy az elhelyezkedése, a kettőt pedig él köti össze. Egy ismétlődő modell külön gráfot használva képes előrejelezni a tárgyak helyét, megjelenítve az időbeli lépéseket. Ehhez viszont túl sok gráf kellene.

Helyette a stanfordi modell egyetlen gráffal képes előrejelezni a helyeket. A gráf összes éle tartalmazza azt az időt, amely azóta telt el, hogy a társított objektumot a társított helyen látták. A modell a tárgy legfrissebb, leggyakoribb és leghosszabb ideig tartó tartózkodási pontjai alapján tanulja meg prognosztizálni a legvalószínűbb következő helyet.

A kutatók háztartásban tárgyakat kereső robotot szimuláltak. Házakat, tárgyak elhelyezkedését, mozgatásuk idejét és helyét megjelenítő szimulátort építettek, a tárgyakat „ábrázoló” gráfot dolgoztak ki, és az előrejelzést megtanuló gépitanulás-rendszert fejlesztettek.

A szimulátor a házat ábrázolta, a robot gráfként jelenítette meg megfigyeléseit. A kutatók száz, változatos beosztású háztartást szimuláltak, a gyakorlósor pedig tízezer gráfból állt. A tárgyak elhelyezkedésére vonatkozó előrejelzéseket a gépitanuló-rendszer korábbi tapasztalatait lépésről lépésre, inkrementálisan hasznosítva végezte.

A modellt három más módszerrel hasonlították össze – egyszerű tárgyat kellett megtalálniuk. Átlagosan 3,2 próbálkozásra sikerült neki, amellyel mindegyik vetélytársánál jobban teljesített.

süti beállítások módosítása