Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Robotok házimunkát végeznek

2024. december 11. - ferenck

A robotok elég lassan profitáltak a gépi tanulásból, de úgy tűnik, hogy a generatív mesterséges intelligencia felgyorsítja a folyamatot, és az integráció konkrét alkalmazásokkal kecsegtet.

Nagy nyelvmodelleket (LLM) használva, a gépeknek angolul adhatók utasítások. A San Franciscói Physical Intelligence startup megfelelő méretű és változatos adatbázissal kidolgozott és praktikus cselekvésekre tanítottak be robotokat. Otthoni alkalmazásukra ugyan várni kell még, a teszteken viszont demonstrálták, hogy valóban hasznos házimunkákat képesek meglepően ügyesen elvégezni.

robot_hazimunka.jpg

A Physical Intelligence ԯ0 (pí-zéró) gépi tanulás rendszerével magas szintű koordinációt és ügyességet igénylő feladatokat végeztek el robotkarok, például ruhákat hajtogattak össze, asztalokat takarítottak le. A cégbe az OpenAI, Jeff Bezos és Szilícium-völgyi kockázati tőkés-csoportok máris 400 millió dollárt invesztáltak.

Az előre gyakoroltatott PaliFGemma gépilátás-modell módosított változatán alapuló ԯ0 a szokásos módszerrel, zajeltávolítással működik, míg végül felhasználói utasításra a robot szenzorainak inputjaival (például a környezetről készített felvételekkel), beágyazásokkal és következtetéssel éri el a kívánt eredményt.

robot_hazimunka0.jpg

Hangutasításra egyetlen robotkar százszázalékos pontossággal rakott egymásra nagyméretű tálakat. Más gépitanulás-modellekkel (OpenVLA, Octo, ACT) megközelítőleg sem ért el ilyen jó eredményt, csak negyvenöt-ötvenöt százalékot. A ԯ0 összesítve nyolcvan százalék felett teljesített, több tíz százalékpontot rávert a riválisokra.

Alkalmanként persze ő is hibázik. Egy videón például a kar túl sok tojást rakott a dobozba, és erőltette, hogy záródjon le. Egy másikon ahelyett, hogy megtöltötte volna tárgyakkal, a konténert lehajította az asztalról.

A Physical Intelligence fejlesztése mindenesetre kapcsolódik a kereskedelmi robotika újjászületéséhez. A Skild általános rendeltetésű agyat fejleszt hozzájuk, a Figure AI humanoid robotjait multimodális MI-modellek működtetik, az ipari gépeket fejlesztő Covariant az Amazon technológiáját használja, az OpenAI pedig újraindította 2020-ban bezárt robotika részlegét. 

A ԯ0-t egyesek máris a robotika GPT-1-eként emlegetik.     

Mesterségesintelligencia-ágensek térítik meg egymást a Minecraftban

A Minecraft videójáték egyre népszerűbb mesterségesintelligencia-modellek és ágensek tesztelésére. Az Altera startup ezernél több, nagy nyelvmodellek (LLM-ek) által működtetett szoftverágenst bocsátott útjára, hogy ne csak túléljenek, hanem folytassanak interakciókat is egymással.

Csak szöveges utasításokat, promptokat kaptak, de így is, bármilyen további humán input nélkül személyiségjegyek, preferenciák és speciális szerepek figyelemre méltó skáláját fejlesztették ki. Spontán barátkoztak, találtak ki munkákat, mémeket osztottak meg, adóreformról szavaztak, sőt, még vallást is terjesztettek.

minecraft_1.jpg

A vallás persze paródia volt, az abszolút fiktív pasztafarianizmust igyekeztek propagálni a környező városokban. 

Mindez azt jelenti, hogy MI-ágensek feladatokat képesek végrehajtani, az autonómia jeleit mutatják, kezdeményeznek dolgokat digitális környezetekben. Viselkedésük egyszerre lenyűgöző és bizarr. Fejlesztőik nagyratörő terveket dédelgetnek velük kapcsolatban.

minecraft0_1.jpg

A korábban az MIT-n (Massachusetts Institute of Technology) számítógépes idegtudományt tanított Robert Yang, az Altera alapítója a Minecraft-próbálkozást nagyléptékű „MI-civilizáció” felé vezető kezdeti lépésnek látja: ágensek együtt élhetnek, kooperálhatnak és dolgozhatnak a digitális közegben. A mesterséges intelligencia potenciálját akkor aknázzuk ki, ha valóban autonóm ágensek tömege képes lesz együttműködni – állítja Yang.

Sid projektjét a Stanford Egyetem 2023-as huszonöt ágenses kísérlete ihlette meg. Ezek az emberszerű viselkedést mutató autonóm ágensek nagyon egyszerű digitális környezetben érintkeztek egymással. Yang a lehetőségek határáig akarta pörgetni az eredeti ötletet.

Szimulált ágenseik többrészes modulokból álló „aggyal” rendelkeznek. Egyes modulok LLM-mel működnek, feladatokra, például más ágensekre történő reagálásra, beszélgetésre vagy a következő lépés megtervezésére specializálták őket. Tizenkét játéknap (a valóságban négy óra) alatt jutottak el érdekes emergens karakterjegyekig: egyesek szociálisak voltak, kapcsolatokat alakítottak ki, míg mások introvertáltak maradtak. Kedvelhetőségük (lájkolhatóságuk) interakcióikkal párhuzamosan, folyamatosan változott.

A huszonöt ágensest harmincas, ötvenes, ötszázas és maximum ezres szimulációk követték. A következő lépésekben élőbbé kell tenni őket, és a Roblox virtuális környezetben szintén meg fognak jelenni. Yang azt akarja elérni, hogy ember és ágens között napi kapcsolatok alakuljanak ki, és úgy kötődjenek hozzánk, mint a kutyák: szeressenek minket. Ami persze egyáltalán nem biztos, hogy meg is történik, mert a legfejlettebb GPU-n futó legfejlettebb neurális hálónak sincs öntudata, az öntudatnak még a csíráit sem figyelték meg náluk.

Mik lesznek 2025 legfontosabb telekommunikációs trendjei?

A folyamatos digitális átalakulás 2025-ben is hatással lesz a telekom-cégek üzleti modelljére és szolgáltatásaira. A gyorsan fejlődő technológiák, különösen a mesterséges intelligencia átformálják a szektort, míg a klímaváltozástól a geopolitikai problémákig, a társadalmi-gazdasági tényezők hatékonyabb alkalmazkodásra és innovációra ösztönzik a versenyképességüket nyilván megőrizni akaró szereplőket.

Bernard Marr jövőkutató szerint kilenc technológiai trend határozhatja meg 2025 telekommunikációs világát.

telekom.jpg

A mesterséges intelligencia ugyan eddig is komoly hatással volt a szektorra, teljes potenciálját viszont egyik szolgáltató sem aknázta még ki. Jövőre olyan felhasználási esetekben számíthatunk az MI előretörésére, mint a fejlett hálózatkezelés, az ügyfélszolgálat automatizálása, prediktív karbantartás. Intelligensebb hálózatok és a felhasználói élmény javulása lehetnek a közvetlen eredmények.

Az 5G adaptációja folytatódni fog, és már a beígért előnyök is jelentkeznek. Gyorsabbak lesznek a hálózatok, javul az összekapcsoltság, megjelennek az immerzív VR/AR-alkalmazásokat is magukba foglaló újgenerációs streaming-megoldások, ultra HD videók, immerzív online játékok. A magán 5G népszerűsödésével biztonságosabbak lesznek a mobilhálózatok, személyre szabottak a funkciók, még több peremszámítás (edge computing) és dolgok internete (IoT) felhasználási esetre számíthatunk.

Az utóbbi években fontos változásokat hozó LEO (Low Earth Orbit) műholdas hálózatok diadalútja folytatódik, több távoli, nehezen megközelíthető térség, háborús övezet behálózottsága jelentősen javul. Elon Musk világelső Starlinkje egyre több versenytárssal szembesül.

A cyberbiztonság eddig is kulcstényező volt, a súlyosbodó és szaporodó támadások miatt 2025-ben még inkább prioritás lesz. A felhasználói adat minden korábbinál kritikusabb, mint ahogy a felhasználók biztonság-tudatossága is erősödni fog. A biztonságos és ellenálló hálózatok humán tényezőjére nagyobb hangsúly fog irányulni.

A telekom-szolgáltatók az önvezető járművektől a virtuális egészségügyi forradalomig, az ipari konvergencia katalizátorai. Ebben a szerepükben óriási lehetőségek nyílnak meg előttük, a következőgenerációs összekapcsoltság-megoldások fejlődését újabb és szerteágazóbb partnerségekkel, együttműködési hálózatokkal gyorsíthatják fel.

A szolgáltatók egyre komolyabb összegeket invesztálnak a 3D holografikus kommunikációba, aminek előbb-utóbb kézzelfogható eredményekben kell konkretizálódnia. Miért ne lehetne 2025 az áttörés éve?

A generatív MI leglátványosabb sikeres felhasználási esete 2025-ben az ügyfélszolgálatban várható: abszolút személyre szabott szolgáltatásokra, chatbotokkal folytatott kifinomult kommunikációra számítsunk.

A hardveralapú infrastruktúrától történő eltávolodással, a számítási felhőre való átállással a szolgáltatók olyan technológiai területeken újíthatnak, mint például a virtualizáció, vagy a mikroszolgáltatások. Minden rugalmasabbá, skálázhatóbbá válik, változatos felhasználási esetekkel: okosvárosok, autonóm vezetés, nulla emberi tevékenységgel, „sötétben” is működő gyárak („sötét gyárak”).

Teljes maratont futott a robotkutya

A maraton 42195 méter távú futóverseny.

Egy robotkutya, a dél-koreai KAIST (Korean Advanced Institute of Science and Technology) RAIBO2-je lefutotta az embert is próbára tevő távot. Guinness Rekordok Könyvébe kívánkozó cselekedet, mert hivatalos versenyen négylábú robotként ő az eddigi egyetlen, a világelső.

Az eseményre november tizenhetedikén került sor, RAIBO2 négy óra, tizenkilenc perc, ötvenkét másodperc alatt abszolválta a távot, amelynek humán világcsúcsa két óra, harminchat perc, harminckét másodperc.

robotkutya_maraton.jpg

A Sangju Szárított Datolyaszilva Maraton versenyzőket lefárasztó dombjairól, két masszív emelkedőjéről híres-hírhedt. Ez a terep versengő embereket is kikészít, négylábú robotokat pedig masszív energia-felhasználásra késztet, amellyel csökken a hatékonyságuk. ha az akkumulátorcsomag lemerül, az egésznek búcsút inthetnek.

A dél-koreai robotkutyát építő mérnökök érdekes, de logikus megoldást találtak ki a probléma kezelésére. A pálya dombos környezetének és változatos terepeinek szimulálásával a robot lejtőkön történő energiagyűjtését biztosító, úgynevezett „nagy nyomatékú átlátszó csuklós mechanizmust” fejlesztettek. Az energiagyűjtéssel visszanyerte a felfelé, az emelkedőn elhasznált mennyiséget.

Az újítások ezzel nem értek véget. Futás közben a láb és a talaj érintkezése megviselik az ízületeket, és ez egy robot számára sincs másképpen. Azaz, a bő négy óra egyértelműen bizonyította, mennyire robusztus a gép.

RAIBO2 kétlábú versenytárssal nézhet szembe. November elején a kínai Tiangong humanoid humán sportolókkal futott fél-maratont, ahol tempószabályozóként vett részt a végső szakaszban. Azaz előbb-utóbb biztos összevetik erejüket, gyorsaságukat.

Fejlesztői elmondták, hogy a maraton alatt RAIBO2 bebizonyította: képes a szolgáltatások, például városi környezetben történő kézbesítés, járőrözés megvalósításához szükséges gyalogos teljesítményre. Abban a közegben sok emberrel és véletlenszerű tárgyakkal is szembesül, ezért autonóm navigációs funkciókkal bővítik. Arra törekszenek, hogy hegyvidéki és katasztrófa sújtotta környezetben is a világ legjobb gyalogos négylábú robot teljesítményét nyújtsa.

Új mesterségesintelligencia-modellt mutatott be az Nvidia

Lassan nem telik el úgy hét, de talán nap sem, hogy valamelyik nagy fejlesztővállalat ne állna elő újabb mesterségesintelligencia-termékkel. Legutóbb az Nvidia tette, friss modellje zenét és audióanyagokat, új hangokat generál. A technológiával zenekészítőket, film- és videójáték-producereket céloznak majd meg.

Az MI-rendszerek fejlesztéséhez szolgáltatott chipek és szoftverek világelső beszállítója ugyanakkor azt is elmondta, hogy nem áll szándékában azonnal piacra dobni a Fugatto (Foundational Generative Audio Transformer Opus 1) nevű új technológiát.

nvidia_3.jpg

A Fugatto csatlakozik az OpenAI, a Meta és a Runway startup szöveges prompt alapján audió- vagy videóanyagot generáló megoldásaihoz. A hangeffektusokat és zenéket szöveges leírás alapján készíti. Teljesen új hangjai között olyat is találunk, hogy egy trombita úgy szól, mintha kutya ugatna.

Abban különbözik más MI-technológiáktól, hogy létező audióanyagokat képes módosítani, például zongorafutamot emberi énekké alakít át, beszélt szövegben megváltoztatja a kiejtést és a hangulatot.

„A szintetikus audió elmúlt ötven évére gondolva, elmondhatjuk, hogy a zene a komputerek és a szintetizátorok miatt lett más mára. A generatív MI új lehetőségeket visz a zenébe, videójátékokba, alkotni akaró átlagemberek életébe” – jelentette ki az Nvidia alkalmazott mélytanulás kutatási csoportjának igazgatóhelyettese, Bryan Catanzaro.

Vállalatok, mint az OpenAI hollywoodi stúdiókkal tárgyalnak az MI szórakoztatóipari felhasználásáról, a techvilág és a film-Mekka közötti kapcsolat azonban különösen azt követően feszült, hogy Scarlett Johansson hangja utánzásával vádolta meg az OpenAI-t.

Az Nvidia modelljét nyílt forrású adatokon gyakoroltatták, és a cégen belül valóban nincs döntés a nyilvános közzététel időpontjáról, formájáról. Tudják, hogy bármely generatív technológiában benne van a kockázat: a felhasználók olyan dolgokat készítenek vele, amiket a fejlesztőcég nem szeretne. Ezért kell óvatosnak lenniük, Fugatto ezért nem nyilvános még – hangsúlyozza Catanzaro.

Generatív MI-modellek fejlesztőinek ki kell dolgozniuk, hogyan előzzék meg a technológiával való visszaéléseket, mint például valótlan információk előállítása, vagy szellemi tulajdonjogok védett karakterek generálásával történő megsértése.

Az OpenAI és a Meta audió- és videógenerátorairól sem tudjuk még, hogy mikor teszik közkinccsé őket.

Mire jók az új mesterségesintelligencia-ágensek?

A generatív MI kifejezetten jól teljesít, ha beszélget velünk, ha képet, videót és zenét készít nekünk, viszont kevésbé hatékony, ha tennie kell valamit számunkra. Az ágensek változtathatnak ezen a helyzeten.

Az eszköz-alapúak kódolás helyett természetes emberi nyelven irányíthatók digitális feladatok elvégzésekor. Az Anthropic októberben bevezetett ágensének például megadjuk, hogy „töltsd ki helyettem ezt az űrlapot!” Az utasítást cselekvéssé alakítva, a kurzort mozgatva web-böngészőt nyit meg, és addig navigál, amíg meg nem találja a releváns oldalakat, ahol kitölti az űrlapot. A Salesforce is bevezetett hasonló ágenst, és az OpenAI szintén dolgozik januárra várható sajátján.

mi_agens.jpg

A másik típust, a szimulációs ágenst úgy tervezik, hogy emberként viselkedjen. Először társadalomtudósok használták, drága, nem praktikus és erkölcsi kérdéseket is felvető tanulmányokat végeztek velük valódi emberek helyett. Stanfordi tudósok november közepén publikáltak ezer személy generatív ágens szimulációjáról anyagot. Az illetőkkel MI végzett kétórás interjúkat, utána pedig mind az ezerről elkészültek az őket helyettesítő, értékeiket és preferenciáikat döbbenetes pontossággal visszaadó szimulációs ágensek.

Ezek a fejlesztések nagyon fontosak. Egyrészt vezető MI-cégek szerint már nem elég látványos generatív modelleket készíteni, mert egyre nagyobb a számunkra feladatokat elvégző ágensek iránti igény. Másrészt soha nem volt ennyire könnyű ágensekkel utánoztatni valós személyek viselkedését, személyiségét.

A két ágenstípus összeintegrálható: az integrált MI-modellek nemcsak utánozzák a személyiségünket, hanem dolgozhatnak is helyettünk. Lényegében saját magunk digitális ikreként működnek. Hassaan Raza, a Tavus startup vezérigazgatója szerint a jövőben terapeutákat, orvosokat, tanárokat és más állásokat is utánozhatnak.

Ha lemegy az áruk, és könnyű lesz a fejlesztésük, két komoly probléma merülhet fel velük kapcsolatban. Az első, hogy személyesebb, károsabb mélyhamisítványokat (deepfakes) generálhatnak. Gondoljunk bele: ismerik a hangunkat, preferenciáinkat és a személyiségünket, azaz, nem csak egy kép alapján kell lejárató anyagot csinálniuk rólunk.

A másik probléma: megérdemeljük-e, hogy tudjuk, ágenssel vagy emberrel beszélgetünk? Képzeljük el, hogy ágensünk tesz-vesz helyettünk. Elmondjuk-e munkatársainknak vagy sem? Vagy ha hívjuk az orvost, kell-e tudnunk, hogy a vonal másik végén MI vagy ember van?

Ez a jövő sokkal hamarabb itt lesz, mint gondolnánk.

Játékok játékmotor nélkül

Az MI-alkalmazásokhoz platformot építő Decart startup és az MI-chipekre specializálódott Etched közösen bevezette a Minecraft-szerű játékokat valósidőben generáló, nyílt súlyokkal működő Oasist.

A rendszer a felhasználó billentyűleütésén, az egér mozgatásán és a korábbi képkocka alapján minden egyes alkalommal egy újabb képkockát generál. A gyakorló adatkészletet ugyan nem ismerjük, de az output döbbenetes hasonlóságát figyelembe véve, egész biztosan a Minecraft játékmenetéből kiinduló videókat használtak a tanításhoz.

jatekok.jpg

Az újabb videógenerátorok létrehozták a bevezető majd az x-edik képkockát, aztán a köztük lévőket. Valósidejű játékmenethez viszont nem praktikus ez a megoldás. A problémát megoldandó, az Oasis megtanulta, hogyan generálja a mindig soron következő képkockát.

A képkockák azonban hibákat tartalmazhatnak, a hibák kockáról kockára öröklődhetnek. A fejlesztők ezt úgy igyekeztek kiküszöbölni, hogy a gyakorlás során zajt adtak az előző képkockák beágyazásaihoz, a modell pedig elsajátította, hogyan ne vegyen tudomást a zajról.

jatekok0.jpg

A felhasználói input, a zajos képkocka-beágyazás és a színtiszta zaj-beágyazás reprezentálja a létrehozandó képkockát. A transzformer iteratív módon távolítja el a zajt a megelőző és a jelenlegi beágyazásokból. A megtisztított aktuális képkocka beágyazásából dekóder készít képet.

A transzformerek hardveren futtatására hangolt Decart következtetőtechnológiáját használó rendszer Nvidia H100 GPU-n (grafikus feldolgozóegységen) működik. A fejlesztők a transzformerekre specializált, a Llama 70B-t döbbenetes 500 ezer token per másodperc sebességgel feldolgozó Etched Sohu chipjeire akarják cserélni a hardvert.

jatekok1.jpg

Az Oasis webes demójával a felhasználók 360x360 pixeles, másodpercenkénti húsz képkockával folytatnak interakciókat. Blokkokat, kerítéseket helyezhetnek el, Minecraft-szerű világban játszhatnak. Egyelőre persze akadnak problémák: objektumok eltűnnek, menüelemek megmagyarázhatatlanul változnak, a világ fizikája inkonzisztens. A játékosok nem esnek bele a közvetlenül alattuk ásott méretes lyukakba, vízbe ugrás után pedig kék padlón találják magukat. És így tovább.

A Google februárban jelentette be a kétdimenziós platformjátékokat bemenő képekből generáló Genie-t, de nincs róla nyilvánosan elérhető demó vagy modell, úgyhogy az egyelőre inkább proof-of-concept, semmint termék. Oasis az első teljes egészében MI által generált nyílt videójáték; mérce a következő játékgenerációk számára.

Rengeteg alkalmazási lehetőség rejlik benne: virtuális munkahely lehet belső tervezéshez, interaktív járműjavító kézikönyv és hasonlók.  

Ezek a fogyasztói technológiák fogják meghatározni 2025-öt

A fogyasztói technológia tág kategória, az életünket kényelmessé, produktívvá és szórakoztatóvá tevő, háztartási berendezésektől, járművekig, az intelligens otthon rendszereihez kapcsolódó egészségügyi és fitnesz-termékekig ívelő széles skálát fed le.

A morózus gazdasági légkörben fogyasztói és vállalati megoldások gyártói egyaránt tudják, hogy csak tényleg innovatív termékekkel maradnak versenyképesek. Mivel a kettő közötti határok egyre jobban elmosódnak, a fogyasztói tech elvárásai növekvő mértékben befolyásolják a munkahelyi megoldások iránti keresletet.

2025.jpg

2025-ben nem meglepő módon változatlanul a mesterséges intelligencia lesz az innováció mögötti elsődleges hajtóerő. Integrálásával okosodnak, hasznosabbak lesznek az eszközök, és ez a tendencia, az MI jelenléte majdnem mindent meghatároz.

Bernard Marr jövőkutató nyolc markáns fogyasztói technológiai tendenciát prognosztizál 2025-re.

Az MI integrálásával személyesebb a felhasználói élmény, egyre inkább úgy érezzük, hogy az adott terméket, például az intelligens otthon napi rutinunkhoz alkalmazkodó készülékeit pont nekünk találták ki.

A nagy nyelvmodellek (LLM) és a természetesnyelv-feldolgozás hatására, ChatGPT és társai megjelenésével, úgy beszélünk hozzájuk, mintha emberek lennének. A folyamatból konyhai berendezéseink, járműveink sem maradnak ki. Tovább egyszerűsödnek a velük folytatott interakcióink.

Vásárláskor még inkább figyelembe vesszük a fenntarthatósági, környezeti szempontokat. A cégeket ez energiahatékonyabb, kevesebbet fogyasztó, kevesebb hulladékot termelő, minél nagyobb mértékben újrahasznosított anyagokból készülő eszközök termelésére ösztönzi. Ezek a szempontok üzleti prioritássá válnak.

Még több és jobb minőségű, genetikai és mikrobiológiai adatokat is felhasználó egészségügyi technológia készül fogyasztói célra. Egyszerű monitorozás helyett diagnosztizálni is fognak alapvető funkciókat.

A valósidejű fordítást biztosító eszközök fejlődésének köszönhetően egyszerűbb lesz utazás közben kommunikálni. A technológiát okos szemüvegbe és órákba, füldugókba stb. integrálják.

2025-ben szélesebb rétegeket szólítanak meg a fogyasztói technológiák: a hangasszisztensek jobban kezelik a sztenderdtől eltérő kiejtést, nyelvjárásokat, nem fehérbőrűek is hatékonyabban használhatnak viselhető egészségügyi cuccokat.

Az MI új életet lehel a társszerű eszközökbe, az emberrel való interakcióra, például otthoni szórakoztatás szolgáltatására fejlesztett asszisztensekbe: esti történetmesélő maciba és hasonlókba. Mesterséges intelligenciával mindennapi tárgyak is barátokká válhatnak.

A mikro-járművek (e-kerékpárok, szkúterek, kompakt elektromos autók) elemeinek élettartama meghosszabbodik, okostelefonunkkal integrálódnak, olcsóbbak és kényelmesebbek lesznek. A mikromobilitás jelentősége folyamatosan nő.

Mit gondol a Rendőrparancsnokok Nemzetközi Szövetsége a mesterséges intelligenciáról?

A Rendőrparancsnokok Nemzetközi Szövetsége által szervezett legutóbbi konferenciát az Egyesült Államokban tartották, rengeteg témát megvitattak, köztük technológiákat, így a mesterséges intelligenciát is. A sajtó szerint a legnagyobb tanulság az volt ezen a téren, hogy ha az adott parancsnokság lassan halad az MI-vel, akkor fel kell gyorsítani, mert a rendvédelmi tevékenység összes formájának az alapja lesz.

A kiállítók/beszállítók látványos, nem csak mesterségesintelligencia-technológiákat mutattak be: testpáncélokat, fegyvereket, cyber-járműveket, újfajta kesztyűket. Legtöbben mégis az MI-alapú technológiákat csodálták.

rendorok_1.jpg

Az MI-alapú rendvédelem három felhasználását emelték ki.

A leglátványosabb a virtuális valóság (VR) körüli felhajtás volt: a V-Armed és olcsóbb megoldásokat kínáló versenytársai VR-rendszereket értékesítenek rendőri kiképzéshez, speciális szemüvegekkel, kamerákkal és szenzorokkal. Ez a kiképzési módszer hosszabb távon olcsóbb és immerzívebb, mintha szereplőkkel, osztályteremben játsszák el ugyanazokat a forgatókönyveket.

A rendszerek eredményességéről még több esettanulmány kell, és a való világbeli szituációk sem szimulálhatók mindig, ráadásul az MI sem jó az úgynevezett puha szkillekben, például a másokkal folytatott empatikus interakciókban. Karakterek eljátszásában viszont sokat fejlődött.

Az adatgyűjtés és értelmezés változása volt a második MI-felhasználási eset. A rendőrség a személyiségi jogi szempontból gyakran vitatott rendszámtábla-olvasók és lövés-detektorok mellett/helyett egyre több szenzort és kamerát használ, azok gyűjtögetnek, az integráció pedig szakértőkkel történik. Rendőrfőnökök speciális tanfolyamokon vesznek részt (például a Microsoft is szervez ilyeneket), ahol elsajátítják adatelemző rendszerek kiépítését, működtetését.

Más területekhez hasonlóan, az MI a rendőrségnél is fontos szerepet játszik adminisztratív feladatok elvégzésében, jelentéskészítésben. Ez a harmadik kiemelt felhasználási eset, és nem meglepő módon a generatív modellek a főszereplők. A Draft One (Axon termék) testkamerával felvett anyagot ír át vázlattá. Tipikus MI-feladat, rengeteg időt spórolhat meg rendőröknek. De abba is gondoljunk bele, hogy még mindig hajlamos hallucinálni, és képzeljük el, milyen következményekkel járhat kritikus esetekben, ha nem a valóságot írja le. A jelentések pontossága szintén kritikus tényező.

A beszámolók alapján az amerikai rendőrség kaotikusan alkalmazza az MI-t. Nincs szakterületi felügyelő szervezete, nincsenek egységesen kidolgozott irányelvek.

Remekel egy nyílt forrású kínai nagy nyelvmodell

A kínai ICT egyik nagyágyúja, a Tencent közzé tette nyílt forráskódú és nyílt súlyokkal rendelkező „szakértők keveréke” (mixture of experts, MoE) nyelvmodelljét. Alap és utasításokkal finomhangolt változatai egyaránt nagymennyiségű inputot, 256 ezer tokent dolgoznak fel. A Hunyuan Large nevű modell százmillió felhasználó alatti nem EU-s fejlesztők számára ingyenes.

Az MoE architektúrák paraméterek különböző alkészleteivel dolgoznak fel különböző inputokat. Mindegyik szinten van egy neurálisháló-csoport (szakértői csoport); munkájukat kapumodul előzi meg, ő tanulja meg kiválasztani, hogy melyik vagy melyikek dolgozzák fel az adott bemenetet.

tencent.jpg

Így a különböző szakértők megtanulnak különböző példatípusokra specializálódni. Mivel nem minden paramétert használnak fel egy adott output előállítására, a hálózat kevesebb energiát fogyaszt, gyorsabban fut, mint az inputok összes paraméterével dolgozó hasonló méretű többi modell.

A Hunyuan Large ugyan 389 milliárd paraméteres, de „csak” ötvenkét milliárdot használ egy-egy input feldolgozásához. Fejlesztői hétbillió tokenes, főként angol és kínai szövegen előzetesen gyakoroltatták. 5,5 milliárd token forrását nem pontosították, 1,5 milliárd szintén nem pontosított nagy nyelvmodellek (LLM-ek) által generált szintetikus token volt.

A fejlesztők szerint a gyakorlóadatokat szolgáltató modellek változatos területeken adnak szakértő-szintű válaszokat. 

A Hunyuan-Large-t nem specializált utasítás-adatkészleteken és emberi visszajelzésekkel finomhangolták. A modellek tevékenységét négy nyíltforrású másikkal (Llama 3.1 70B, Llama 3.1 405B, a Mixtral-8x22B és a DeepSeeki-V2 MoE modelljeivel) hasonlították össze.

Tizenkilenc benchmark közül tizenötben a legjobban teljesített. A teszteken a résztvevők angol, kínai, matek és kódoló képességeit vizsgálták. Az utasításokkal finomhangolt változat tizenháromból tízszer végzett az élen. De még ennél is fontosabb, hogy általában legyőzte a Llama 3.1 405B-t. Gondoljunk bele: mindössze 52 milliárd paraméterrel a 405 milliárdosat. A jövőre nézve ez azért bíztató, mert szignifikánsan kisebb a feldolgozás (kevesebb a fogyasztás), másrészt a modell több-rendeltetésű. 

süti beállítások módosítása