Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Az önvezető autók lassítják a forgalmat

2023. augusztus 25. - ferenck

Az Észak-karolinai Állami Egyetem (NC State) tanulmánya alapján az egymással összekapcsolt, az adatokat vezeték nélküli kapcsolaton megosztó járművek a kereszteződéseken áthaladva jelentősen csökkentik az utazási időt. Ha viszont nem állnak kapcsolatban egymással, és csak automatizáltak, akkor növelik.

A biztonság miatt van így.

Két okból érdeklődünk az automatizált járművek iránt: az egyik a biztonság növelése, a másik az utazási idő csökkentése. Kutatások tanulsága, hogy ezek a járművek tényleg javítanak a biztonságon. Az NC State számítógépes modellezésen alapuló anyaga viszont azt sugallja, hogy ha az utazási időn is szeretnénk faragni, nem elég növelni az automatizált járművek számát. Egymással és a kereszteződések forgalmát kezelő közlekedésirányító rendszerekkel kommunikálni képes járművekre van szükség.

lassulo_forgalom.jpg

A számítógépes modell forgalmi feltételeket szimulált. Négyfajta járművel számoltak: ember által vezetettek (HV), összekapcsoltak (CV) – utóbbiakat emberek vezetik, de a többi összekapcsolt járművel és a közlekedésirányítással is megosztják az infókat –, automatizált járművek (AV), összekapcsolt automatizált járművek (CAV).

Programozásuk miatt az AV-ket a humán sofőröknél óvatosabbnak tartjuk. A CV-ket és az CAV-ket úgy tervezték, hogy a közlekedési lámpák jövőbeli állapotáról kapjanak információt, majd sebességüket ennek megfelelően alakítják a kereszteződéseken megállás nélkül történő áthaladáshoz. Így a CV-k és a CAV-k könnyebben, kevesebb megállással átmennek rajtuk, mint a HV-k és az AV-k.

A kutatók ötvenhét szimulációt futtattak le, hogy felbecsüljék több változó, például a járműtípusok különféle eloszlásainak az utazási időre gyakorolt hatását.

Kiderült, hogy minél több a CV és a CAV, annál nagyobb a kereszteződés kapacitása, tehát, ha több az összekapcsolt jármű, gyorsabb a forgalom, kevesebben várakoznak piros lámpánál. Viszont ha sok a – nem összekapcsolt – AV, lelassul a forgalom, mert a programozásuknál a „konzervatív” vezetést feltételező ütközéselkerülés az elsőszámú szempont.

Egyértelmű, hogy mind a járművek, mind a közlekedésirányító rendszerek összekapcsoltsága kulcsfontosságú.

Mesterséges intelligencia menti meg a méheket

A mezőgazdaság fejlődésével egyre fontosabb a fenntartható megoldások és az erőforrások hatékony felhasználása. A fejlődés egyik kritikus aspektusa az élelmiszer-növény termelés közel hetvenöt százalékának előállítását biztosító beporzás.

A BeeHero, izraeli agrotechnológiai vállalat, ismerve a méhek tevékenységének jelentőségét, Beporzás Betekintési Platform néven kínál megoldást: a platform a helyszíni szenzortechnológiát (lésd a képen) fejlett adatelemzéssel és mesterséges intelligenciával hozza közös nevezőre. A beporzás folyamatos megfigyelésével a tevékenység hatékonyabb lesz, növeli a terméshozamot.

mehek.jpg

A platform kaptárban elhelyezett, szabadalmaztatott érzékelőkön alapul. Az érzékelők helyszíni telepítésével, a cég valósidőben nyomon követi több növény beporzását.

Az új technológiával jelentősen bővül a BeeHero méhek viselkedésére vonatkozó hatalmas, a világ legnagyobb adatkészlete, amelyet kétszázezernél több kaptárból szedtek össze.                

A történelem során „fekete dobozként” funkcionált beporzást a modern mezőgazdaság és a jövőbeli élelmiszerellátás alapjának tartják. Ezt a fekete dobozt igyekeznek átláthatóvá tenni, és most már nemcsak kaptáron belüli, hanem azon kívüli adatokat is felhasználnak hozzá.

A platformmal a mezőgazdák fontos információkhoz jutnak a méhek aktuális tevékenységéről a földeken. Az infókból levont következtetések hatása nagyon pozitív.

A helyszíni szenzorok ugyanis kritikus adatokat gyűjtenek méhekről, tevékenységükről, virágokról, környezeti viszonyokról. A technológia paradigmaváltás: korábban manuálisan igyekeztek összeszedni ezeket az adatokat. Hatékonyságban, pontosságban ég és föld a különbség.

A mesterséges intelligenciával elemzett adatok segítik a döntéshozást. Mobil interfészen könnyen hozzáférhetők, a platform tényleg hatékony eszköz mezőgazdák kezében. 

Az embernél is biztonságosabban vezet repülőgépet egy humanoid robot

A mesterséges intelligencia és a robotika is olyan gyorsan fejlődik, hogy gépi rendszerek ma már nemcsak földi munkára, hanem a levegőben, például repülőgép-vezetésre is alkalmasak. A szöuli KAIST (Korea Advanced Institute of Science & Technology) kutatói erre a célra fejlesztenek a pilótafülke módosítása nélkül humanoid robotot.

A gép neve Pibot, 160 centi magas, tömege 65 kiló, és a pilótafülke, ember számára tervezett összes gombját, irányítópanelét, készülékét ugyanúgy képes kezelni, mint húsvér kollégái – állítják a fejlesztők.

pibot.jpg

Karjait és ujjait úgy vezérli, hogy nagy rezgés esetén is ügyesen kezeljen műszereket. Külső kameráival figyeli a repülőgép aktuális állapotát, belső kamerái pedig segítik a vezérlőpulton lévő lényeges kapcsolók használatában.

Megjegyez természetes nyelven írt bonyolult kézikönyveket, így különböző repülőgépekhez tud alkalmazkodni. Humán pilótáknál nem megy ennyire simán, váltásnál tovább tart beletanulni az újba. Pibotnál ez csupán annyi, hogy egy másik ikonra kattint.

pibot0.jpg

Memóriája akkora, hogy az összes Jeppesen légi navigációs térképet tárolja, memorizálja – humán pilóták számára ez is lehetetlen feladat. E képességek kialakulását a nagy nyelvmodellek (large language models, LLM) utóbbi évekbeli fejlődése tette lehetővé.

2016-ban volt már egy elődje, de az MI akkori fejlettségi szintje meg sem közelítette a mostanit, ezért a KAIST kutatói egyszerűbb robotot építettek. Nem is tudott olyan kézikönyvekből, szakirodalomból tanulni, mint a mostani.

A nagy nyelvmodellekkel, például a Chat-GPT-vel a technológia lényegesen jobb eredményekre képes, megy velük a tanulás. Pibot vészhelyzetben sokkal gyorsabban reagál, mint az ember, ha probléma merül fel, azonnal intézkedik. Egyelőre ugyan a Chat-GPT-t használják, de a kutatók saját LLM-et fejlesztenek, hogy a humanoid ne legyen internetkapcsolatra utalva. A modell kizárólag repüléssel kapcsolatos infókat kezel, a fedélzetre felvihető kicsi számítógépen tárol mindent.

A repülőgéphez csatlakoztatva, Pibot közvetlenül tud kommunikálni a személyzettel. Mostani változatát extrém körülmények közötti tevékenységre fejlesztették, amikor az emberi részvétel nem feltétlenül előnyös. A légiközlekedés-irányítással, a pilótafülkében lévő emberekkel beszédszintézis segítségével érintkezik.

Repülőgép mellett később más vezetési feladatokat (autó, tank, hajó stb.) is végezhet. Várhatóan 2026-ra lesz kész.

Kevesebb a GPU

Az Nvidia idén jelentette be az előd A100-nál gyakorlásnál 2,3-szor, következtetésnél 3,5-ször gyorsabb H100 grafikus feldolgozó egységet (GPU).

A fejlesztőknek a legjobb chipekre van szükségük nagyteljesítményű mesterségesintelligencia-modelljeik trenírozásához, csúcskategóriás termékekbe integrálásukhoz. A generatív MI a jelenlegi infokom „legforróbb” technológiája, és az innováció bánja, ha akadozik a chipellátás.

gpu1.jpg

Pont ez történik most: az Nvidia legjobb chipjei iránti kereslet nagyobb, mint a kínálat. Nincs elég H100.

Felhőszolgáltatók az év elején problémákkal küszködtek GPU-k beszerzésében, de a hiányt most már a kisebb és a nagyobb MI-cégek is érzik, ráadásul a chipeket 2024-re is eladták már.

Az Nvidia designjain dolgozó TSMC, a chiptervezők körében, például a rivális AMD-nél is népszerű csomagolási technológiája korlátai miatt a mostaninál nem tud több H100 gyártásához hozzájárulni. A tervek szerint 2024 végéig megduplázzák termelési kapacitásukat.

gpu_1.jpg

Az Nvidia szerint a felhőszolgáltatók előzetesen értékesítették H100 kapacitásaik zömét. Következményként a hirtelen megnövekedett számú felhasználókat kiszolgáló nagy nyelvmodellek gyakoroltatásához szükséges többezer H100-hoz való hozzáférés csökkenésével, több startup bajba került.

Egy H100, memóriával és nagysebességű interfésszel eredetileg 33 ezer dollárba kerül, az eBay-en azonban már 40 és 51 ezer közötti árakon kínálják.

A keresletet nehéz számszerűsíteni. Nagy MI-vállalatoknak és felhőszolgáltatóknak többtízezer-többszázezer, kisebb startupoknak többszáz-többezer H100-ra lehet szükségük. Egyes becslések szerint jelenleg kb. 430 ezret vennének meg azonnal, összesített áruk 15 milliárd dollár körül mozog, és a kínaiakkal nem is számoltak.

A legnagyobb kínai vállalatok (Alibaba, Baidu, ByteDance, Tencent) ötmilliárdért rendeltek nem pontosított Nvidia-chipeket, zömüket jövőre fogják leszállítani.

Az Nvidiával közeli kapcsolatban álló (a chipgyártó invesztált is beléjük) CoreWeave felhőszolgáltató startup 35-40 ezer H100-at rendelt.

Hogyan építsünk nagy nyelvmodellekre alkalmazásokat?

Egyre több nagy nyelvmodell (LLM) nyílt forrású vagy majdnem az, így fejlesztők több opció között választhatnak, hogy hogyan és milyen alkalmazásokat építsenek rájuk.

A legegyszerűbb mód az utasításadás (prompting). Az előzetesen gyakoroltatott LLM-nek utasításokat adva, gyakorlósor nélkül percek, maximum órák alatt elkészülünk az alkalmazás prototípusával. Egyre többen tesznek így, és a trend erősödése várható.

alkalmazasepites.jpg

Egy fokkal bonyolultabb az egy- vagy többlövéses „promptolás”, azaz a modellnek kevés adatot használva, megadunk egy vagy több (főként kettő-öt) utasítást, példákat, hogy hogyan hajtsa végre a feladatot. Az eredmények általában jobbak, mint az első opciónál.

A finomhangolás a harmadik. A sok szövegen előzetesen gyakoroltatott modellt saját magunk által összeállított kis adatsoron történő további gyakoroltatással a feladatnak megfelelően hangoljuk át. A rendelkezésre álló eszközök fokozatosan javulnak, egyre több fejlesztő rendelkezésére állnak.

Az előzetes gyakoroltatás a negyedik, de a semmiből indulva sok forrás kell hozzá, így kevesen alkalmazzák a módszert. Változatos témákon gyakoroltatott általános modellek mellett, a módszerrel speciális, például pénzügyi (BloombergGPT) vagy orvosi (Med-PaLM-2) alkalmazások készíthetők.

Legcélszerűbb a gyors eredménnyel járó elsővel kezdeni. Ha nem vagyunk elégedettek, a bonyolultabb technikákat fokozatosan használjuk, és csak akkor ugorjunk a következőre, ha valamelyik végképp nem működik. A finomhangolás például nagyságrendekkel komplexebb, és sokkal több példa is kell hozzá.

Ha szabadalmaztatott modellel, mondjuk a GPT-4-gyel szeretnénk dolgozni, vegyük figyelembe, hogy nem finomhangolható. Az se biztos, hogy sokkal kisebb modellek finomhangolása jobb eredménnyel jár, mintha nagyobbakat promptolunk.

Minden az alkalmazástól függ – ha az LLM kimenetének a stílusán akarunk változtatni, működik a kisebb modellek finomhangolása. Ha viszont az alkalmazásunktól a GPT-4 promptolásával várunk összetettebb következtetéseket, akkor jó modellel próbálkozunk, mert ezen a téren az összes nyílt forrású változatra ráver.

A fejlesztői megközelítés mellett a modell kiválasztása is nagyon fontos. A kisebbekhez kevesebb számítási kapacitás kell, sok alkalmazásban jól működnek. A nagyobbak azonban több ismerettel rendelkeznek a világról, ezért a következtetéseik is jobbak.

A dotkom lufihoz hasonló lehet a mesterségesintelligencia-divat?

A mesterségesintelligencia-ipar piaci értékének folyamatos növekedését látva, gazdasági szakértők a kései 1990-es évek dotkom lufijával vonnak párhuzamot. A világháló korai időszakának aranylázakor kockázati tőkések irdatlan összegeket fektettek magukat világmegváltóként ajánló startupokba. A tervek nem váltak valóra, a vállalkozások zöme becsődölt, semmivé enyészett a mintegy ötbillió dollár befektetés.

Hasonló aranyláz érzékelhető a mai MI-piactéren is. Rengeteg kockázati tőke áramlik startupokba, pedig a profitteremtés módja egyáltalán nem egyértelmű még, igaz, annyira nem is délibábos, mint volt annó egy csomó dotkom-vállalkozásnál. Cégvezetők mindenesetre megint nagyívű jövőképeket vázolnak fel, és mindennek az MI az alapja bennük. A részvények rendületlenül emelkednek, az Nvidiáé csak idén háromszorosára, a Metáé 154, a Microsofté 65, az Amazoné 35 százalékkal nőtt.

dotcom_ai0.jpg

A technológia tényleg magával ragadó és lebilincselő, igazi értékét viszont még nem ismerhetjük pontosan. A világjavítás és az utolsó ítélet egyaránt növelik az érdeklődést, minél többen hallanak az MI-ről, annál több a befektető. Így volt ez a dotkom lufi korában is.

A piaci koncentráció szintén fontos párhuzam. Az S&P 500, az ötszáz amerikai tőzsdén jegyzett nagyvállalat részvényárfolyamainak súlyozott átlagát követő tőzsdeindex tíz legnagyobb részvénye a teljes piac több mint egyharmada, és az internetes buborék idején is hasonló volt a helyzet.

A fontos párhuzamok mellett több a fontos különbség is. A legmarkánsabb, hogy az MI-ipar legfőbb érintettjei (Amazon, Google, Meta, Microsoft) egytől egyik régi Szilícium-völgyi versenyzők, sőt, a Meta kivételével, dotkomlufi-túlélők is, az évtizedek során több technológiai hullámot meglovagoltak, és viszonylag hosszú ideje dolgoznak az MI-n.

Kétségtelen, hogy sok új cég is megjelent, de például az OpenAI-t komoly technológiai ismeretekkel és kötelékekkel rendelkező Szilícium-völgyi veteránok (Sam Altman, Reid Hoffman, Elon Musk, Peter Thiel) alapították, ráadásul a Microsoft is masszívan beléjük fektetett. A Character.AI-t, a Humane Inc-et korábbi Google- és Apple-vezetők alapították, tehát tapasztalatban és tőkében náluk sincs hiány. Nagyon sok más startup jár hasonló cipőben. 1999-ben teljesen más volt a helyzet, mert a befektetők zömmel pénzcsinálásra alkalmatlan kezdő vállalkozásokba öntötték a pénzt.

Mi várható? A hype előbb-utóbb nyilván lecseng, viszont dotkom lufi-féle kipukkadás sem lesz. A startupok egy része el fog tűnni, sokan megmaradnak, néhány nagy még nagyobb lesz, a mostani eredményeken alapuló, új és komplexebb fejlesztési irányok jönnek.         

Digitális kirakós játékok javítják a memóriát

Digitális puzzle-t játszó hatvan év feletti személyek memóriaképességei ugyanolyan jók, mint a huszonéveseké – derült ki az angliai York Egyetem tanulmányából. Jobban ignorálják a nem releváns figyelemelterelő tényezőket. Stratégiai játékoknál viszont a memóriájuk és a koncentrációs készségük is gyengébb.

Életkorunk előrehaladtával köztudottan csökken az a készségünk, hogy több dologra emlékezzünk egyszerre. Általános vélekedés szerint a munkamemória húsz és harminc év között van csúcson, majd lassú hanyatlásnak indul.

digitalis_puzzle.jpg

Korábbi kutatások alapján az információ tárolási módja az agyunkban az öregedéssel változik. A yorki kutatók ezért azt vizsgálták, hogy bizonyos mentális stimulációk, például a játék hatásai is életkor-függően változnak-e.

Sok tanulmány akciójátékokra összpontosít, mivel – többek szerint – a gyors reagálás, a célpontok követése stb. segíti a memóriát és a figyelmet. Új elemzésekből viszont kiderült, hogy az akcióelemek nem jelentenek szignifikáns előnyt a fiatalabb felnőtteknek.

Ezzel szemben a stratégiai jegyek, mint a tervezés és a problémamegoldás jobban stimulálják a fiatalok memóriáját és figyelmét. Idősebbeknél nem ugyanazok a hatások, de a pontosabb megértéshez a területet, például a kihívás szintjének hatásait tovább kell kutatni.

A yorki kutatásban idősebb és fiatalabb felnőttek olyan digitális játékokat játszottak, amelyeket a „való életben” is játszanának. Ezért sokféle játék tesztelése mellett, a résztvevőknek úgy kellett képeket memorizálni, hogy közben elterelték a figyelmüket.

Irreleváns, zavaró tényezőket általában képesek vagyunk figyelmen kívül hagyni, például elvárjuk, hogy csecsemősírás vagy kutyaugatás közben is megjegyezzük egy-egy utca nevét. Ez az adottságunk azonban romlik az öregedéssel.

Kirakós játékok viszont ugyanúgy támogatják idősek mentális képességeit, a memória és a koncentráció szintjét, mint a játékkal frissen ismerkedő húszévesekét. Az idősek könnyebben felejtenek, ha csak stratégiai játékokat játszanak, és elterelik a figyelmüket. Fiataloknál kirakós játékoknál történik így.

A kutatók a közeljövőben a különféle játéktípusok életkor-függő hatásait, és azoknak az agyi információtároláshoz való kapcsolatát tervezik vizsgálni. 

Amerikai kutatók úgy tanítanak egy robotgyereket, mint egy igazit

Az ember közösségi lény, és már kiskorunktól kezdve egymástól tanulunk. A csecsemők figyelik a szüleiket, testvéreiket, gondozóikat. Képességek és viselkedések megtanulásához nézik, utánozzák, újrajátsszák a tőlük ellesett vizuális élményeket.

A csecsemők tanulási és környezet-megfigyelési módja komoly hatást gyakorolt a Carnegie Mellon Egyetem (CMU) és a Meta AI a robottanulás új módszereit vizsgáló kutatóira. Szimultán akarnak több képességet elsajátíttatni robotokkal, amelyeket korábban nem ismert, mindennapos feladatok megoldásához használhatnak.

cmu_robotgyerek.jpg

Hároméves gyerek környezetét, személyeket és tárgyakat, szó szerint is kezelni tudó adottságaival rendelkező robotikus mesterségesintelligencia-ágenst fejlesztettek hozzá. RoboAgent mesterséges intelligenciája passzív megfigyeléssel és aktív tanulással teszi lehetővé ezeknek az adottságoknak a kialakulását.

A nyílt forráskódú ágens különféle valóvilág-forgatókönyvekben sajátított el tizenkét manipulációs (ügyességi) adottságot. A kutatás változó környezetekhez alkalmazkodó robotplatformokat vetít előre. A korábbi hasonló projektekkel ellentétben szimuláció helyett a robot mindent a valóságban végez, ezért kevesebb adat is kellett hozzá.

Robotok általában saját élményeikből és nem környezetük történéseiből tanulnak, és a közeggel kapcsolatos „vakságuk” erősen korlátozza a rájuk váró tapasztalatok változatosságát, adottságaik új szituációkra történő alkalmazását. A korlátok felszámolása végett, RoboAgent ugyanolyan passzív megfigyeléssel tanul, mint a csecsemők, csak ő internetes videókat néz.

A mozgóképanyagokból sajátítja el, hogy emberek miként folytatnak interakciókat tárgyakkal, és hasznosítják különféle adottságaikat feladatok megoldására. Ha hasonló képességeket figyelnek meg változatos forgatókönyvekben, megtanulják, hogy mi az, kell-e alkalmazni bizonyos feladatokhoz, vagy sem.

Az ilyen típusú tanulásra képes ágenssel közelebb kerülünk különböző feladatokat ismeretlen szcenáriókban megoldó, tapasztalatai miatt folyamatosan fejlődő, nem egyetlen szűk területen, hanem többen jól teljesítő, általános robothoz.

A mesterséges intelligencia ugyanolyan jól diagnosztizálja a mellrákot, mint a radiológusok

Radiológusok az 1980-as évektől használnak mesterséges intelligenciát mellrák diagnosztizálására. Az akkori módszert sokan megkérdőjelezték, az MI viszont maradt és addig fejlődött, mígnem 2020-ban a Google egészségügyi csoportja arról számolt be, hogy túlszárnyalta a radiológusokat. A módszerben azonban megint találtak hiányosságokat.

A svéd Lund Egyetem kutatói idén véletlenszerű, kontrollált klinikai tesztet végeztek, hogy eldöntsék: képes-e MI-rendszer a páciensek veszélyeztetése nélkül időt spórolni radiológusoknak. Ez volt az első alkalom, amikor az MI mellrák-diagnosztikai képességeit az orvosi tesztek „aranysztenderdjének” megfelelő mammogramokon vizsgálták.

rakdiagnozis.jpg

Kiderült, hogy az ember plusz gép kiértékelési folyamattal radiológusoknak lényegesen kevesebb időt kell eltölteniük egy-egy beteggel, miközben a biztonsági feltételek is teljesültek.

A kutatásvezetők 80 ezer svéd nőt véletlenszerűen kontroll- és kísérleti csoportra osztottak.

A kontrollcsoport mammogramjait az Európa legtöbb részén bevett gyakorlat szerint, két radiológus manuálisan értékelte ki. A kísérleti csoportét a mellrák felismerésére gyakoroltatott Transpara konvolúciós neurális háló vizsgálta. A röntgenképeket rákkockázat alapján egytől tízig terjedő skálán pontozta, és a legnagyobb kockázatot jelentő pontoknál (nyolc, kilenc, tíz) megjelölte a képet.

A kísérleti csoport pontjait és jeleit humán radiológusok értékelték ki. Egyikük minden egyes képet átnézett, de azokat már ketten, amelyekre a Transpara tíz pontot adott. Végül mindegyik páciensről eldöntötték, hogy visszahívják-e további vizsgálatra, vagy sem, amellyel kiszűrhették a hamis pozitívokat.

Az MI-vel támogatott diagnózisnál minden ezer személyből 6,1-nél fedeztek fel rákot. A szám hasonló volt a kontrollcsoportéhoz, a biztonság viszont valamivel túllépte a megállapított alsó határt. A radiológusok a kontrollcsoport 2, a kísérleti csoport 2,2 százalékát hívták vissza. Mindkét csoportnál 1,5 százalék volt a hamis pozitívok aránya. A szinte teljesen egyező arányokon kívül az is kiderült, hogy MI segítségével, a radiológusok idejük 44,3 százalékát spórolhatják meg.

Mit ért a világból a mesterséges intelligencia?

Egyre gyakrabban merül fel a kérdés, hogy a nagy nyelvmodellek (LLM-ek) megértik-e a világot, általánosabban fogalmazva: értenek-e valamit a valóságból a mesterségesintelligencia-rendszerek?

Egyelőre nincs semmilyen elfogadott tudományos teszt, amellyel meg lehetne válaszolni a kérdést. Andrew Ng világhírű gépitanulás-szakértő szerint az LLM-ek elég komplex világmodelleket építenek ahhoz, hogy egy bizonyos szintig elmondható róluk: értik a világot. Inkább maguktól kitalálják, milyen valójában a világ, semmint papagájként ismételnek szavakat.

vilag_megertese0.jpg

Egy GPT nyelvmodellen (Othello) dolgozva, Ng és kollégái megfigyelték, hogy az általuk gyakoroltatott változat egy táblás játékot úgy értett meg, hogy senki nem magyarázta el neki a szabályokat. Rengeteg gyakorlás után viszonylag pontos előrejelzéseket tett a következő lépésekről. Vajon világmodell építésével jutott el eddig?

A kutatást ismertető tanulmány szerzői szerint igen. A neurális hálónak megadtak egy lépéssorozatot, mire rejtett egységeinek aktiválásával úgy tűnt, hogy rögzítették a játéktábla aktuális helyzetét és a lehetséges szabályos mozgásokat. Tehát a csak a gyakorlóadatok statisztikáit utánozni próbáló „sztochasztikus papagájjal” – meggyőző szöveg generálására jó, de az általa feldolgozott szöveget nem értő LLM – összehasonlítva, az idegháló világmodellt épített.

vilag_megertese.jpg

Ng szerint az emberi szövegen dolgozó LLM-ek szintén világmodelleket építenek. Emergens viselkedésformáikat, például megadott utasítások finomhangolását, nehezen tudjuk megmagyarázni, ha azt feltételezzük, hogy nem értik a világot.

Az MI világértése évtizedek óta vita tárgya. John Searle amerikai filozófus 1980-ban publikálta elhíresült kínai szoba érvelését. Képzeljük el azt a hipotetikus helyzetet, hogy kínaiul nem tudó angol anyanyelvű személy tartózkodik egy bezárt helyiségben, és kínaiul írt szöveget kell angolra fordítania. A fordításhoz a kínai szimbólumok mondattani rendezésére szolgáló, jelentésüket viszont nem magyarázó, angolul írt szabálykönyvet használ, aztán valahogy elkészül a fordítás. Searle szerint a számítógép olyan, mint ez a személy: úgy tűnik, érti a kínait, a valóságban azonban nem.

Az egyik ellenérv, hogy a szobában lévő személy, a szabálykönyv, papír, az ottani rendszer elemei külön-külön ugyan nem értik a kínait, együtt, komplett rendszerként viszont igen. Az agy hasonlóan működik: egyes neuronjainak fogalmuk sincs például a gépi tanulásról, de rendszerként már van.

Konklúzió: az LLM-ek is érthetik a világot. Ha nem, akkor bajosan jutunk el általános mesterséges intelligenciáig (AGI), szingularitásig.

süti beállítások módosítása