Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Intelligensebbek lettek a mesterségesintelligencia-modellek

2026. január 06. - ferenck

Egy éve ilyenkor az MI-modellek csak akkor hajtották végre a „gondolkodj lépésről lépésre, indokold meg az érvelésedet, dolgozz visszafelé a választól” érvelési stratégiákat, ha így promptoltuk őket. Ma már a legtöbb új nagy nyelvmodell (LLM) magától értetődően alkalmazza ezeket, feladatok széles skáláján javítva a teljesítményt.

Az OpenAI vezette be az – ágensszerű érvelési munkafolyamaton alapuló – első érvelő-következtető, tehát „gondolkodó” modellt, az o1-et, 2025. januárban pedig a kínai DeepSeek R-1-e mutatta meg, hogyan épülnek fel ezek a képességek. A matematikai és a kódoló teljesítmény azonnal javult, a kérdésekre pontosabb válaszok érkeztek, javulnak az MI-vel működő robotok, gyorsan fejlődnek az MI-ágensek.

gondolkodo_mi_modellek.jpg

Japán és Google-kutatók 2023-as A nagy nyelvmodellek nulla esélyes érvelők (Large Language Models Are Zero-Shot Reasoners) tanulmányában jelent meg először a promptolás „lépésről lépésre” történő kiegészítése. Rájöttek, hogy ezeknek a szavaknak a manuális hozzáadásával javul az output. Aztán mások is, ráadásul mindezen túl még arra is, hogy a képességet modellekké képezhetik, és ez, valamint egyéb érvelési stratégiák explicit promptolás nélkül is alkalmazhatók. A megerősítéses tanulással történő finomhangolás a kulcs: ha egy előre betanított LLM-et jutalmaznak a helyes outputért, akkor előbb „átgondolja” a dolgokat, és csak utána generál kimenetet.

Az első érvelő-következtető modelleket matematikai problémák megoldására, tudományos kérdések megválaszolására, teszteken átmenő kódok generálására tanították be. Miután elsajátították a számológépek, keresőmotorok és más eszközök használatát, még jobb teljesítményre lettek képesek, multimodális megértés-teszteken, akár száz területet átfogó technikai szakértelem megmérettetéseken teljesítettek egyre jobban. A megerősítéses tanulással trenírozott robot-cselekvőmodellek nyolc százalékkal javultak, és az új modellek az ágensek képességeit is növelik, például valóvilágbeli problémákat gyorsabban orvosló algoritmusok készíthetők velük.

Ugyanakkor lehetséges az is, hogy az érvelő-következtető modellek mégsem annyira racionálisak, mint amennyire annak tűnnek. Elképzelhető, hogy a komplexitás bizonyos szintjét meghaladó puzzle-ok megoldására alkalmatlanok, vagy a lépések között kihagynak a következtetésben kulcsfontosságú információkat. Például a promptban és az outputban szerepel egy utalás, de az érvelés során nem tesznek róla említést.

Mindezeket figyelembe véve is egyértelmű, hogy az érvelés-következtetés nagyon feljavította az LLM-ek teljesítményét. A jobb outputnak viszont ára van, rengeteg tokent elhasználnak hozzá, lassabban születik meg a végeredmény. Szerencsére már dolgoznak a megoldáson (Claude Opus 4.5, GPT-5.1).

Mit kell tudnunk az ágenses böngészőkről?

Az okostelefonok megváltoztatták böngészési szokásainkat, lényegében az internethasználatunkat. A generatív mesterséges intelligenciával megjelent újgenerációs ágensekkel hasonló léptékű változás kapujában állunk. Az egyelőre kísérleti stádiumban lévő technológiákkal nemcsak keresünk és kattintunk, hanem a nevünkben végezhetnek aktívan feladatokat.

Az ágensböngészők látják a képernyőnket, értik a természetes nyelven adott utasításokat, műveleteket hajtanak végre honlapokon és alkalmazásokban: információkat keresnek, összefoglalják a keresési eredményeket, űrlapokat töltenek ki, online szolgáltatásokat kezelnek, vásárolnak, azaz a böngészés autonómabb, proaktívabb és intelligensebb jövőjét villantják fel. Nem tévesztendők össze a böngésző ágensekkel, például a Google Chrome Geminivel vagy a Microsoft Edge Copilottal, azaz ágensfunkciókkal történő bővítésével.

agentic_browsers.jpg

Az OpenAI 2022 novemberében közkinccsé tett ChatGPT-je a generatív MI tömeges népszerűségéhez vezetett. Most (az egyelőre csak Pro vagy Plus előfizetéses felhasználók számára és csak macOS rendszereken elérhető) – a jelenlegi LLM-ek (nagy nyelvmodellek) egyik legfejlettebbikével, legrugalmasabbjával, a GPT-5 technológiával működő – ChatGPT Atlasszal igyekeznek megújítani a böngészést. Jelen ismereteink alapján ez az LLM a legalkalmasabb mindennapos feladatok széles spektrumához. Az ágensmód aktiválását követően az Ask ChatGPT oldalsávban adjuk meg az utasításokat, mire saját egerével és billentyűzetével oldalakat nyit meg, űrlapokat tölt ki stb. Mint ahogy a ChatGPT képes tényeket tárolni és szükség szerint előhívni, úgy az Atlas is rendelkezik saját belső memóriával. Ez a képessége segíti megérteni az elvégzendő feladatokat.

agentic_browsers0.jpg

Az Opera Aria böngésző mesterséges intelligenciájára épülő Neon szintén érti a természetes nyelvű promptokat, képeket generál, látja képernyőnket, interakciókat folytat vele. A felhőalapú és a helyi számítási erőforrások között egyensúlyozva, a hibrid modellel megvalósított szigorú adatvédelem teszi különlegessé és vonzóvá: a személyes kommunikációt tartalmazó feladatokat az eszközön kezeli, a nagyobb munkafolyamatokat a felhőalapú infrastruktúrára bízza. Ez a tény ugyan fontos előrelépés, de csak részleges válasz az ágenses böngészéssel kapcsolatban felmerülő jogos aggályokra. Mindenesetre bíztató jel, hogy a fejlesztők fokozottan ügyelnek a biztonságra, ami hatványozottan indokolt, ha az ágens döntéseket hoz a nevünkben, sőt, a pénzünket is költheti. (A Brave Leo és a Dia Browser ugyan még nem teljesértékű ágenses böngészők, de privacy- és biztonság-fókuszuk már most megsüvegelendő.) 

A keresésfókuszú generatív MI-jéről ismert Perplexity technológiáját böngészővé bővítette. A Comet eredetileg a hagyományos keresőmotorok uralmát megkérdőjelező válaszmotornak (answer engine) készült, de már önállóan is végez feladatokat: vásárol, naptárakat kezel, e-mailt ír. Riválisaitól főként a több lap szimultán megnyitásának, a több forrásból származó infók összevonásának képessége különbözteti meg.

A szingapúri Butterfly Effect (Pillangóhatás) Manusát fejlesztői „böngésző a felhőben” leírással definiálják. Az utasításokat a cég Monica LLM-e természetes nyelvű interfészén, és nem a mi böngészőnkben adjuk meg, Erre indítja el felhőalapú munkamenetben a saját böngészőjét, és nézhetjük a működését. Célokat adunk meg neki, kivitelezési terveket készít, majd hajt végre. Kódolási feladatokban különösen jól teljesít.

Eljött a kriptovaluták tele?

Donald Trump második megválasztása után, tavaly ősszel úgy tűnt, hogy elkezdődött a kripto-iparág aranykora. Mivel a technológia mögött álló vállalatok jelentős összegeket invesztáltak a Republikánus Párt jelöltjébe, az elvárások megalapozottnak tűntek, sőt, szakértők a terület gyors szabályozását és „lenyugvását” is prognosztizálták.

2025 végére a bitcoin értékét 250 ezer dollárra jövendölték 2024 végén. Ezzel szemben december közepén 92 ezerért kereskednek vele, október óta huszonöt százalékot értéktelenedett. Az ethereum pedig a harmadára, mintegy háromezer dollárra zsugorodott. Több mint egybillió dollárt veszítve, az egész kriptopiaci kapitalizáció három hónap alatt a negyedével csökkent.

kriptotel.jpg

Kérdés, hogy a lejtmenet valami még negatívabbhoz, a mesterségesintelligencia-fejlődéstörténet mintájára kriptotélhez vezet? 

Ilyenkor az árak folyamatosan esnek, a bizalom csökken, majd elpárolog.

Vagy csak a bitcoin októberi minden idők csúcsát követő átmenetről lenne szó? A hanyatlás akkor indult, amikor október tizedikén Trump elnök újabb vámokkal fenyegette meg Kínát, és a kereskedők igyekeztek megszabadulni a kockázatos, például MI- és kriptorészvényektől. A bitcoin értéke egy hét alatt tíz százalékot esett.

A kriptokereskedők magas töke-áttételű pozíciója felerősítette a sokkot. Ezzel a taktikával a hozamok, de a veszteségek is megsokszorozódnak, negatív kilengéskor a kereskedési platformok le is foglalják a kereskedők biztosítékait. A piac azóta nem talált magára.

Kipukkad a lufi? – teszik fel egyre többen az MI-világból ismerősen csengő kérdést. Vagy túlzó olyankor télről beszélni, amikor a bitcoin „csak” huszonöt százalékkal van minden idők legmagasabb értéke alatt?

Voltak már ilyen periódusai, a múltban a felezésnek nevezett esemény miatt mindig ciklikusan mozgott – ilyenkor ötven százalékkal csökken az újonnan bányászott bitcoinok napi értéke. Négyéves ciklusokról van szó, az utolsó felezés 2024. áprilisban történt. 

A kriptovaluták mainstream adoptációja viszont idejétmúlttá teheti ezt a négyéves ciklikusságot. Szakértők is valószínűbbnek tartják, hogy a bitcoin előbb megy le 50 ezer dollárra, minthogy megint 250 ezer körül jegyeznék.

Szövetségre lépett a Disney és az OpenAI

A Walt Disney Company és az OpenAI megállapodást kötött, amelynek értelmében a Disney lesz az első nagy tartalomlicenc-partner az OpenAI rövidformátumú generatív MI-alapú videóplatformján, a Során. Az együttműködéssel a kreatív történetmesélés új lehetőségeit igyekeznek feltárni.

A három évre szóló megegyezés részeként a Sorának lehetőségében áll felhasználók által promptolt, rövid közösségi videókat készíteni a Disney, a Marvel, a Pixar és a Star Wars kétszáznál több animált, maszkos, teremtményszerű karakterével. Jelmezeket, kellékeket, járműveket és ikonikus környezeteket szintén felhasználhatnak.

openai_walt_disney.jpg

A ChatGPT Images ugyanazon szellemi tulajdonból másodpercek alatt képes lesz a felhasználó szavaiból pillanatok alatt képeket generálni. A megállapodás nem vonatkozik színészek képmásaira, hasonmására és hangokra.

A licenc-megállapodás mellett a Disney az OpenAI egyik fő ügyfelévé válik, a vállalat alkalmazásprogramozói felületeit (API) is használva épít új termékeket, eszközöket, élményeket dolgoz ki többek között a Disney+ számára, alkalmazottainak pedig telepíti a ChatGPT-t. Egymilliárd dolláros tőkebefektetést hajt végre az OpenAI-ban, és lehetőségében áll további részvények vásárlása.

openai_walt_disney0.jpg

Mindkét cég megerősítette az MI felelős használata, a felhasználók biztonsága és az alkotók jogai iránti elkötelezettségét. Közösen fogják előmozdítani a kreatív iparágakat tiszteletben tartó és a történetmesélés lehetőségeit kiaknázó emberközpontú mesterséges intelligencia további fejlődését – ígérik.

„A technológiai innováció folyamatosan alakítja a szórakoztatás fejlődését, új módszereket teremt nagyszerű történetek létrehozására és megosztására a világgal” – jelentette ki Robert A. Iger, a Disney vezérigazgatója, majd külön kiemelte az MI, elsősorban a generatív MI hatását az iparágra.

„A Disney a globális történetmesélés aranyszabványa. Izgatottan várjuk az együttműködést, amellyel lehetővé válik a Sora és a ChatGPT Images számára, hogy bővítsék nagyszerű tartalmak megalkotásának és átélésének módját” – nyilatkozta Sam Altman. 

Ágenses MI Alapítvány nyílt forráskódú mesterségesintelligencia-projektekhez

A tömeges innováció lehetőségét nyílt forráskódú szoftverekkel biztosító, nonprofit Linux Alapítvány december kilencedikén jelentette be az Agentic AI Foundation (Ágenses MI Alapítvány, AAIF) megalakulását, egyben három vezető projekthez történő alaphozzájárulását is. Mindhárom projekt (Anthropic MCP, Block goose, OpenAI AGENTS.md) a nyílt forráskódú MI-innovációt ösztönzi.

Az ágenses MI megjelenése az autonóm döntéshozás és a mesterségesintelligencia-rendszerek közötti koordináció az egész iparágat átalakító, forradalmasító új korszakát hozta el – hangsúlyozza a Linux Alapítvány.

agentic_ai.jpg

Az AAIF neutrális és nyílt alapot biztosít e képességek átlátható, együttműködés-alapú fejlődéséhez. Igyekszik elősegíteni a nyílt forráskódú projekteket, az első hárommal próbálják megalapozni az eszközök, a szabványok és a közösségvezérelt innováció megosztott ökoszisztémáját.

Az Anthropic 2024 novemberében kiadott MCP-je (Model Context Protocol) mostantól a szabványprotokoll mesterségesintelligencia-modellek eszközökhöz és adatokhoz történő csatlakoztatásához. Több mint tízezer nyilvánosan publikált szervert használnak hozzá, amelyek a fejlesztői eszközöktől a Fortune 500-as cégek telepítéseiig szinte mindent lefednek már.

Mivel fejlesztők és vállalatok az egyszerű integrációs módszer, a biztonsági ellenőrzések és a gyorsabb telepítés felé mozdultak el erőteljesen, a – belső Anthropic-projektként indult – protokollt a Claude, a Cursor, a Microsoft Copilot, a Gemini, a VS Code, a ChatGPT és más népszerű MI-platformok is átvették.

A 2025 elején kiadott goose nyílt forrású MI-ágens keretrendszer. Nyelvi modellek, bővíthető eszközök és szabványosított MCP-alapú integráció összekombinálásával igyekszik strukturált, megbízható és hiteles környezetet biztosítani ágenses munkafolyamatok létrehozásához és végrehajtásához. A fejlesztő, a több bitcoin-projekt és növekvő ökoszisztémájuk mögött álló Block vállalat terméke az MI-ágensek biztonságos és következetes fejlesztéséhez szükséges gyakorlati infrastruktúrát adja.

Az augusztusban kiadott AGENTS.md az MI-vel fejlesztett kódoló ágensek számára projektspecifikus útmutatásokhoz konzisztens forrást biztosító egyszerű és univerzális szabvány. Az ágensek különböző adattárak és eszközláncok közötti megbízható működéséhez, kiszámíthatóbb viselkedésükhöz van szükség rá.

Az AAIF társalapítói közé tartozik az Amazon Web Services, az Anthropic, a Block, a Bloomberg, a Cloudflare, a Google, a Microsoft és az OpenAI, és a techipar különböző részterületeinek szereplői is hozzájárulnak az alapítványhoz.

Visszafordítható az öregedés?

A Texasi A&M Egyetem új kutatása megmutatja, hogy belső elemeik, a mitokondrium nevű mikroszkopikus erőművek, az energia előállításában és raktározásában szerepet játszó sejtszervecskék cseréjével hogyan „tölthetők fel eredményesen” az emberi sejtek. A felfedezés komoly hatással lehet egészségügyre, gyógyászatra.

Az életkorral a legtöbb sejtünkben lévő mitokondriumok száma természetes módon csökken, lassulnak és elhasználódnak. Mihelyst csúcskapacitásuk alatt kezdenek működni, betegségekhez járulhatnak hozzá.

sejtek_meghackelese.jpg

A texasi kutatók speciális virágalakú részecskékkel, úgynevezett „nanovirágokkal” kötötték meg a káros oxigénmolekulákat, aktiválva az emberi őssejtekben a mitokondriumok számát növelő géneket. Az energiával felturbózott őssejtek megoszthatják mitokondriumaikat a régi és sérült szomszédsejtekkel, ami inkább elemcsereként, mint újratöltésként értelmezhető. Lényeg, hogy a működésképtelenné vált meglévő sejtek ismét munkába állhatnak.

A kutatók egészséges sejteket gyakoroltattak be tartalékelemeik megosztására a gyengébbekkel. A donorsejtekben lévő mitokondriumok számának növelésével az öregedő vagy sérült sejtek genetikai módosítás vagy gyógyszerek nélkül nyerik vissza vitalitásukat.

A molibdén-diszulfid vegyületből készült nanovirágokat apró lyukakkal alakították ki, hogy a célszövetekben szivacsként működve felszívhassák a stresszes reaktív oxigénfajokat. Eltávolításukra indul be a gének mitokondriumképződést több fokozattal növelő tevékenysége.

Az őssejtek természetes módon a mitokondriumok megosztására épültek fel, de a laboratóriumi kísérletekben – javítva a többi sejt újratöltődését – jóval több erőművel rendelkeztek, mint általában. A normális esetnél várhatónál nagyjából kétszer több mitokondriumot osztottak meg. A szív simaizomsejtjeinek száma megháromszorozódott, megnégyszereződött, és így a káros kemoterápiának kitett szívsejtekben szignifikáns mértékben javult a kezelt sejtek túlélési aránya.

A módszerrel a test bármely sejtje megfiatalítható – sugallják a kutatók, de azt is hozzáfűzték, hogy még a nagyon kezdeti szakasznál tartanak. Következő fázisban állatokon és embereken igyekeznek működőképessé tenni a nanorészecskék mitokondriális átvitelét.

Ezekből a tesztekből megtudhatjuk, hogy hova implantálhatók hasznos őssejtek a szervezetben, milyen dózisszint biztonságos és megfelelő. A folyamat hosszútávú hatásait szintén tanulmányozni kell.

Világokat modellez a mesterséges intelligencia

Hozzászoktunk, hogy a mesterséges intelligencia szöveget, képet, videót és kódot generál. Elkezdődött a következő fázis is: teljes világok létrehozása, szimulálása. A felhasználó által alakítható immerzív 3D környezetekké, lakókkal, működő fizikai rendszerekkel – kicsit úgy, mint a virtuális valóságban vagy a videójátékokban…

A jelenlegi MI kétféleképpen hozhat létre ilyen környezeteket.

vilagmodell.jpg

Az első hasonlít a generatív modellek videókészítéséhez: a dinamikus, menet közbeni modellezés, ahogy a felhasználó interakcióba lép a közeggel, az MI a fizikáról és az objektumok viselkedéséről tanultak alapján előrejelzi minden egyes pixel változását. Ez már nem promptok interpretálása, mert csak modellezett világok képesek reagálni a bennük navigáló felhasználó inputjaira.

A módszerrel teljes világok generálhatók folyamatosan, képkockáról képkockára. Nagyon rugalmasak, realisztikusak és egyedi közegek, csakhogy a megközelítés elképesztően számításintenzív. A mai legkifinomultabb valósidejű világmodellek (amelyek nem tévesztendők össze az MI világmodelljével, világról alkotott „összképével”) konzisztenciája csak percekig tartható fenn, mert rengeteg kapacitás – és persze energia – kell hozzájuk.

vilagmodell0.jpg

A képkockánkénti generálás helyett ezért van szükség más módszerre, akár többre is, és itt visszatérünk a promptokhoz, az MI azokat alakítja át állandó geometriai modellekké, digitális eszközökké és fizikai metaadatokká. Az adatok (nem csak a metaadatok) utána letölthetők és más szoftvereszközökbe importálhatók, ott pedig tetszés szerint módosíthatók, szerkeszthetők és böngészhetők.

Több nagy MI-fejlesztő gőzerővel dolgozik saját modellezett világon: a Google a Genie 3 platformon, a hasonló dinamikus generálást alkalmazó Meta a Habitat 3-on, a Fei-Fei Li által vezetett World Labs a Marble-n, Elon Musk xAI-ja egy egyelőre meg nem nevezett közegen.

Ezek a környezetek számos felhasználási esettel kecsegtetnek: videójátékok és szórakozás, robotok és önvezető járművek gyakoroltatása, egészségügy – az emberi test mikro- és makroszinten is szimulálható –, gyártás, építészek tesztelhetnek bennük épületeket és így tovább. Bernard Marr jövőkutató szerint integráns részei lehetnek az üzleti élet és a társadalom generatív MI általi átalakításának.

A világmodellezés fontos lépés az általános mesterséges intelligencia, az AGI (artificial general intelligence) felé vezető úton. A világban történő navigáláshoz, a közeg megértéséhez az MI-nek tudnia kell, hogyan és miből épül fel, miként kapcsolódnak össze az elemei, és tartható fenn. 

A generált modellekben benne van ez a lehetőség.

A nyugati világ kevésbé lelkesedik, inkább bizalmatlan a mesterséges intelligenciával szemben

Az Edelman és a Pew Research egymástól független felméréséből kiderült, hogy az amerikaiak és nagy vonalakban Európa és a nyugati világ nem bízik az MI-ben, és nem is lelkesedik érte. A fejlesztőközösségeknek, optimizmusuk ellenére komolyan kell venniük ezeket a hangokat, mert a nyilvánosság aggályai szignifikáns mértékben befolyásolják a technológia fejlődését, és kezelniük kell a problémákat – figyelmeztet Andrew Ng gépitanulás-szakértő. (Az ábrák az Edelman-felmérés adatai.)

Az Edelman felmérése alapján az Egyesült Államok lakosságának 49 százaléka elutasítja, 17 százaléka támogatja az MI egyre növekvő használatát. Kínában fordított, pontosabban „még fordítottabb” az arány: mindössze tíz százalék utasítja el, és 54 százalék támogatja. A Pew alapján sok más ország lényegesen pozitívabban áll az MI el- és befogadásához, mint az USA.

mi_felmeres_1.jpg

Ng szerint a pozitív hozzáállás komoly nemzeti előnyt jelent, míg a széleskörű bizalmatlanság több negatív következménnyel jár: például magánszemélyek lassabban kezdik alkalmazni. Az Edelman alapján az Egyesült Államokban a mesterséges intelligenciát ritkán használók elsősorban a bizalom (70 százalék), és kevésbé a motiváció és hozzáférés (55 százalék) hiányára, vagy a technológia miatti félelemre (12 százalék) hivatkoznak.

A negatív hozzáállás másik következménye, hogy akadályokba ütköznek a társadalmi támogatást igénylő értékes projektek. Indiában tüntetések hiúsították meg a Google adatközpont-építési tervét, ami egyértelműen árt az MI fejlődésének. A mesterséges intelligencia elleni populista harag, felháborodás a fejlődést akadályozó törvények meghozatalának esélyét is növeli.

mi_felmeres0_1.jpg

„A félreértések elkerülése végett, mindannyiunknak, akik az MI-n dolgozunk, meg kell vizsgálnunk az előnyeit és a hátrányait (például a közösségi médiát szennyező mélyhamisítványokat és a felhasználókat félrevezető kimeneteket), mindkettőről igazat kell mondanunk, és miközben az előnyök növelésén dolgozunk, csökkentenünk kell a hátrányokat” – javasolja optimális fejlesztői-szakértői attitűdként Ng.

Az MI veszélyeivel kapcsolatos felhajtás valódi károkat okozott, hozzájárult a bizalom megcsappanásához. Felelőtlenek azok a fejlesztőcégek is, amelyek rendkívül erősnek feltüntetve, rögtön a nukleáris fegyverekhez hasonlítják a technológiát. A nyilvánosság nagy része ezt komolyan is veszi, és úgy gondolja, hogy az MI az Apokalipszis egyik lovasa. Az MI-fejlesztőknek abba kell hagyniuk, hogy ilyen sebekkel maguknak okozzanak kárt, helyettük inkább a bizalom visszanyerésén kell dolgozniuk.

Oktatás, gyakorlás, a felhajtás elkerülése, felszólalni a hype-ot gyártó és gerjesztő médiumok ellen, az érintettekkel, a munkájukban fenyegetettekkel való párbeszéd vezethetnek el addig.

Nvidia: érvelő-következtető MI-modell önvezető autókhoz

Az Nvidia kiadta a nyílt látás-nyelv-cselekvés DRIVE Alpamayo-R1 modellt. Az önvezető autók fejlesztéséhez használható modell gondolatlánc (Chain-of-Thought, CoT) alapú érvelést-következtetést kombinál útvonaltervezéssel.

A vezetési forgatókönyveket lépésről lépésre bontja szét, kiértékeli a lehetséges útvonal-pályákat (trajektóriákat), és kontextuális adatok segítségével választja ki összetett helyzetekben az optimális útvonalakat. Például gyalogosokkal teli kereszteződések vagy elzárt kerékpár-utak lehetnek ilyen bonyolult szituációk, amikor az önvezető jármű komoly kihívásokkal szembesül, és azonnali megoldást kell találnia rájuk.

nvidia_4.jpg

A modell gyakoroltatásához az érvelési-következtetési képességeit jelentősen javító megerősítéses tanítást alkalmaztak, amellyel lényegesen jobbnak bizonyult, mint az előre betanított változat. A megerősítéses tanulás – reinforcement learning, RL – olyan gépitanulás-módszer, amikor például egy ágens úgy tanul meg egy adott környezetben cselekedve optimalizálni, hogy pozitív (megerősítő, jutalmazó) vagy negatív (büntető) visszajelzések alapján finomítja stratégiáját. Általában döntéshozási folyamatok automatizálására használják.

nvidia0_2.jpg

Az Nvidia Cosmos Reasonra épülő AR1 lehetővé teszi kutatók számára, hogy a modellt nem-kereskedelmi alkalmazásokhoz, köztük teljesítmény-összehasonlításhoz (benchmarking) vagy kísérleti autonóm járművek fejlesztéséhez testre szabják.

A Cosmos a legmodernebb generatív világ-alapmodelleket (world foundation models, WFM), védőkorlátokat és gyorsított adatfeldolgozási és -kezelési folyamatot tartalmazó fizikai mesterségesintelligencia-platform. (Fizikai intelligencián robotokkal, önvezető járművekkel és a fizikai világban aktív más gépi ágensekkel összekapcsolt MI-t értünk.) 

A DRIVE Alpamayo-R1 a világ első ipari léptékű nyílt látás-nyelv-cselekvés modellje mozgásalapú gépi cselekvésekhez. Komoly hatással lehet az önvezető járművek további fejlesztéseire.

Mesterséges intelligencia és szólásszabadság

Gépeknek valójában nincs véleményük, és nézeteik sincsenek. Mégis el-elhangzik, hogy a mesterséges intelligenciára is ki kellene terjeszteni a szólásszabadságot. Az úgynevezett intelligens gépek ugyanis a közvéleményt, sőt, akár a politikát és a demokráciát, és az üzleti életet is befolyásoló üzeneteket generálnak.

Mennyire kontrollálják, alakítják az MI-k befolyásolásra alkalmas outputjait azok, akiknek módjukban áll, azaz a fejlesztőcégeknek és a működésüket szabályozó kormányoknak? 

szolasszabadsag.jpg

A kérdés még ennél is komplexebb, mert az e-kereskedelmi ajánlórendszerektől, hírfolyamok automatizálásától kezdve a fogyasztói és más döntések befolyásolásáig, rengeteg területen jelen vannak. Az MI mindennapokban betöltött szerepének növekedésével a társadalomnak meg kell válaszolnia ezeket a kérdéseket – állítja Bernard Marr jövőkutató.

Elon Musk szerint a ChatGPT-féle botok alapját jelentő nagy nyelvmodellek (LLM-ek) balra, az ellenoldal szerint jobbra hajlanak. És az objektív igazság keresése nem annyira egyértelmű, mint elsőre tűnik. Az LLM-ek hatása viszont napról napra nagyobb.

Korlátozni kell az érintettek MI-befolyásolási mértékét, és esetleg így érjük el, hogy az adott rendszer szűretlen, objektív tényeket közöljön velünk? Így garantáljuk az MI szólásszabadságát? De kinek a hangját halljuk, amikor a chatbot nekünk „beszél”?

Ha a fejlesztők hathatnak az outputra, akkor a modellek nagyvállalatok és kormányok véleményét erősíthetik fel. Az ellenpélda: a ChatGPT-t és másokat azért moderálnak, hogy ne terjesszenek ártó infókat, megelőzzék a szerzői jogok megsértését, és bűnelkövetési tanácsokat sem adnak. De mi történik akkor, ha emberjogi kérdésekre fittyet hányó kormányok kifejlesztik a saját ChatGPT-jüket?

Ilyen esetekben egyértelműen a fejlesztő mögötti megbízó szándéka érvényesül, cél a manipuláció, és nem az objektív igazság feltárása. A kérdés már nem az MI szólásszabadsága, hanem a gépi befolyásolás mikéntje.

Marr szerint az MI-ágensek korában még égetőbb a probléma megoldása, mert ők már nem egyszerű chatbotok, hanem autonóm, mindig online és így befolyásolásra még alkalmasabb mesterséges intelligenciák. Kényes egyensúlyt kellene megteremteni: korlátokat felállítani, és egyben tiszteletben tartani, hogy a fejlesztők is kifejezhetnek elképzeléseket az MI-n keresztül.

Üzleti szempontból a botnak az alapértékekkel kompatibilis üzeneteket lenne szabad kommunikálnia a fogyasztóval. Szabályozói szempontból meg kellene vizsgálni, hogy az MI mikor mutat be tényként információkat, és mikor kellene egyértelművé tenni, hogy „nézeteit” a fejlesztők befolyásolják. Ezt mindenki másnak fel kellene ismernie, mert a fogyasztott, megosztott és a döntéseinket megalapozó infókat egyre gyakrabban – nem mindig nyilvános utasításokat követő – MI-k hozzák.

süti beállítások módosítása