Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Mesterséges intelligencia a gyártásban

2024. május 06. - ferenck

Az utóbbi másfél évben a generatív mesterséges intelligencia vált a legfontosabb infokom technológiává. A felhasználók száma napról napra nő, köztük egyre több gyártócég is alkalmazza, vezetőik optimisták. Az MIT (Massachusetts Institute of Technology) friss felméréséből kiderült, hogy az MI-fejlesztésekkel kapcsolatos ambíciók erősebbek a gyártószektorban, mint a többi ágazatok zömében.

A teljesen automatizált intelligens gyár integráns részét látják benne, növeli a termék- és folyamat-innovációt, csökkenti a gyártási ciklus időtartamát és a széndioxid-kibocsátást, hatékonyabbá tesz eszközöket és folyamatokat, eredményesebb lesz tőle a karbantartás és a biztonság – állítja sok gyártó.

mi_gyartas2.jpg

A felmérés készítői azt vizsgálták, hogy gyártók hogyan profitálnak MI esettanulmányokból. A szektor mesterséges intelligenciával valamilyen szinten dolgozó háromszáz képviselője vett részt benne.

64 százalékuk kutatásokat vagy kísérleteket végez vele, 35 százalék már a gyártásban hasznosítja. Sokan kijelentették, hogy a következő két évben szignifikáns mértékben növelni igyekeznek MI-kiadásaikat. Akik még nem alkalmazzák a gyártásban, fokozatosan vezetik be.

mi_gyartas0.jpg

Az MI méretezésének (skálázásának) a tehetség, a készségek és az adatok hiánya a legfőbb hátráltatói. Minél közelebb kerül a cég a gyártáshoz, annál markánsabbak ezek a problémák. A nem megfelelő adatminőség és szervezés szintén megnehezíti sikeres felhasználási esetek kidolgozását.

mi_gyartas1.jpg

A legnagyobb cégek költik a legtöbbet, és az ő elvárásaik is a legmagasabbak. A mérnöki és tervezői területen a vezetők 58, gyári folyamatoknál 43 százaléka szerint a következő két évben cégük több mint 10 százalékkal növeli MI-költéseit.

Az MI miatti óhajtott nyereségek gyártási funkciókként változnak. A terméktervezés, a beszélgető MI és a tartalomkészítés a leggyakoribb felhasználási esetek, de a tudásmenedzsment és a minőség-ellenőrzés szintén fontosak.

mi_gyartas2_1.jpg

Ha nincsenek megfelelő adatalapok, akadozhat a méretezés. A nem adekvát adatminőséget a megkérdezettek 57, a gyenge adatintegrációt 56, a rossz irányítást 47 százaléka említette, és csak minden ötödik megkérdezett rendelkezik meglévő MI-modellekben való használatra kész gyártóeszközökkel. Minél nagyobb a gyártó, annál problémásabbak a nem megfelelő adatok.

A méretezéshez a töredezettséget is kezelni kell. A gyártók többsége szerint az adatarchitektúra, az infrastruktúra és a folyamatok modernizálása nélkül nem megy az MI-alkalmazás. Az adatrendszerek mérnökök, tervezők és a gyár közötti interoperabilitásának javítása szintén kulcsfontosságú.

Közeleg a szövegből zenét készítő mesterséges intelligencia áttörése?

A korábbi szövegből zenét (text-to-music) generáló eszközöket viszonylag kötetlen formájú instrumentális kompozíciókra, és kevésbé dalokra, szerkesztett versekre, kórusokra, vokálokra tervezték.

Az áprilisban kiadott Stable Audio 2 maximum háromperces hangszeres számokat generál, jól megkülönböztethető nyitánnyal, középső résszel és befejezéssel. A felhasználó feltölthet audio track-eket, és a modellel módosíthat rajtuk.

hanggeneratorok.jpg

A szövegből képeket gyártó egy évvel ezelőtti modellekhez hasonlóan, a mostani szöveg-zene generátoroknál is nehezen irányítható az output. Alig reagálnak alapvető terminológiákra (tempó, harmónia stb.), és általános stílusokat kérnek, mint például az utóbbi ötven évben igencsak sok változáson átment, alstílusokban bővelkedő pop.

Hiteles dalokat előállító modellek megjelenésével eljöhet az audió MI-k „Midjourney pillanata”: a felhasználók széles köre jön rá, hogy a modell promptokra személyes igényeinek, ízlésének megfelelő muzsikát tud előállítani.

hanggeneratorok0.jpg

Az Udio webalapú generátora bevásárlóközponti háttérzenétől heavy metalig változatos stílusokban alkot. A 2023 végétől szolgáltató Sumo hasonló, nemrég frissítették a kínálatát.

Mindkettő promptokból teljes zenekaros anyagokat, promptonként kettőt generál, dalszövegekkel, énekkel, hangszer-szólókkal. A felhasználó létrehozhat vele szövegeket, sajátját is feltöltheti, letöltheti, megoszthatja másokkal az outputot.

A lejátszás és a lájkok száma alapján ranglisták készülnek róluk.

Az Udio regisztrált felhasználói maximum havi 1200 dalt generálhatnak ingyen. A szöveges utasítás mellett meg kell adniuk a stílust is. A rendszer automatikusan leírásokkal helyettesíti művészek neveit, és a kimenetek gyakran egy az egyben úgy hangzanak, mintha a kért zenészek munkái lennének.

A modell 33 másodperces hangszegmenseket generál, amelyeket meghosszabbíthatunk, remixelhetünk, módosíthatunk. A cég semmit nem árult el a mögöttes technológiáról.

A Sumo felhasználói napi tíz dalt generálhatnak ingyen. Megadjuk a promptot, mire a rendszer maximum kétperces anyaggal áll elő. Külön utasításokban specifikálhatjuk a szöveget, stílust, címet. Valódi művészek nevét tartalmazó promptból Sumo nem generál zenét, és a technológiáról sincs infónk.

Bajban van a Stability AI

A Stable Diffusion szövegből képet generáló mesterségesintelligencia-modell mögötti, London-székhelyű Stability AI húsz alkalmazottat bocsátott el egy nappal azt követően, hogy bejelentették: bővítik a zászlóshajónak számító modellhez való hozzáférést. Mindez az alapító-vezérigazgató Emad Mostaque márciusi távozása utáni többhetes belső feszültség közben történt.

A húsz alkalmazott a vállalat munkaerejének kb. tíz százalékát jelenti, tehát jelentős létszámcsökkentésről beszélhetünk.

stability_ai.jpg

A két ideiglenes vezérigazgató Shan Shan Wong és Christian LaForte elmondta: az elbocsátási hullám a költségek csökkentését, a befektetők és partnerek támogatásának megerősítését, az innovatív termékek további megjelenéséhez vezető fejlesztéseket célzó stratégiai terv része volt.

Arról nem nyilatkoztak, mely részlegeket „karcsúsították.” A leépítés nem meglepő az elmúlt hónapok eseménylavinája után. Az egykori vezérigazgató önkéntes távozását ugyanis több ismert kutatóé előzte meg. Mostaque a vezetőtanácsban betöltött szerepéről is lemondott. A decentralizált MI területén szeretné folytatni kutatásait – nyilatkozta.

Pedig a cég az egyik legismertebb képgeneráló termék mögött áll, a generatív MI-forradalom kezdetétől jelen voltak, az alapmodelleket fejlesztő vállalatok közül viszont ők az elsők, akik csökkentik munkaerejük létszámát. A Stable Diffusion új verziója mellett, a Stable Diffusion 3-hoz való hozzáférési kört bővítették, és egyben bejelentették a szöveget zenévé alakító Stable Audio új változatát is.

Eközben jogi eljárások is várnak rájuk. Az OpenAI-hoz hasonlóan, ellenük is szerzői joggal védett anyagok modelljeik tanítására való felhasználása a vád. A Getty Images már tavaly beadta a keresetet, az ügy most jut bírósági szakaszba.   

Generatív mesterséges intelligencia és az avatárok

Az avatárokat eredetileg virtuális világbeli alteregóinknak tervezték, mára viszont a közösségi médiától a virtuális valóságon keresztül a populáris kultúráig, szinte mindenhol megjelentek.

K-pop zenekarok koncerteznek a tagok digitális hasonmásával, vagy már hasonmások sincsenek, csak teljesen virtuális, MI által generált lánycsapatok, mint a szintén dél-koreai MAVE.

avatarok.jpg

A Meta MI Híresség Avatárok gyűjteményének virtuális karakterei valódi celebeket utánoznak, a felhasználók úgy folytathatnak interakciókat kedvenc sztárjaikkal, mint influenszerekkel a valóságban.

Az avatárok térhódítása egyértelműen jelzi a technológia rugalmasságát, és leginkább azt, hogy életünk mennyire fontos szereplőivé váltak. A digitális interakciók napi rutinná alakulásával, az avatárok személyeknek és márkáknak is új önkifejezési módokat kínálnak, újszerűen kapcsolódhatnak másokhoz a folyamatosan változó online közegben.

avatarok0.jpg

És ez csak a jéghegy csúcsa, mert az „avatarizáció” transzformatív lehetőségeit a VR, az AR, a mélytanulás és az MI további fejlődésével fogják csak igazán kihasználni. Az állandó technológiai innovációkkal a realizmus és funkcionalitás soha nem látott szintjét elérve, egyre elenyészőbb lesz a valóság és a virtuális világ közti különbség.

Márkáknak nemcsak megfigyelni kell a közeget, hanem proaktívan fel kell lépniük marketing és technológia metszéspontján, hogy az ügyfél élménye még elementárisabb legyen. Az avatárok tökéletesek erre a szerepre. Digitális személyek megjeleníthetik az adott márka identitását, hagyományos maszkotokhoz vagy szóvivőkhöz hasonlóan, a brand jelképévé válhatnak. A Wendy’s és a KFC például különféle, a Fortnite és az Instagram felhasználóira rezonáló személyiséget találtak ki avatárjaiknak.

avatarok1.jpg

A nagy változást az MI jelenti: avatárok úgy taníthatók, hogy minél jobban megjelenítsék a cég legfontosabb értékeit. Ezzel nemcsak az interakcióik hitelesebbek, hanem a brand változatos platformokon való megjelenítése is konzisztens. Maga a cég kezeli az integritása megőrzésében hatékonyan segítő avatárokat, tehát nem függenek külső influenszerektől, más – „közvetítő” – vállalatoktól.

Az avatárok érintkezési pontok a fogyasztóval, erősítik benne a márka iránti elkötelezettséget. A Nike a Robloxon futó Nikeland-je exkluzív digitális termékeket kínál avatárokkal, a Coca-Cola kínai metaverzum-kampányának részeként a felhasználók saját Coca-Cola avatárokat készíthetnek, virtuális tereket fedezhetnek fel velük, ahol vásárolhatnak, játszhatnak, hírességekkel találkozhatnak.

Az avatárokban rejlő lehetőségek azonban túlmutatnak a rövid taktikai kampányokon. A fogyasztó márka iránti hűségének őrzőivé válnak, és a generatív MI-nek hála 24/7-ben képesek konzisztens tartalommal megtölteni az interakciókat, tanulnak is belőlük. Ajánlásaik személyesebbek lesznek, karakterüket mindinkább az adott felhasználó preferenciáihoz igazítják.

Átírják a felhasználói élményt, a brand digitális arcaként interaktív érintkezési pontként funkcionálnak.

A márkaélmény kiterjesztésének hatékony eszközeként megjelennek a fizikai világban is, innovatív módon lépnek interakcióba az ügyfelekkel. Az Ikea dolgozott már virtuális influenszerrel boltjaiban, más avatárok divatheteken tűnnek fel.

Az MI és az adatelemzés avatárokba integrálásával egyre több hasonlóra számíthatunk.

Kisokos: hogyan adjunk utasításokat a mesterséges intelligenciának avagy mire vigyázzunk promptolás közben?

A generatív mesterséges intelligencia térhódításával, a különböző modellekkel közösen készülő munkáknál nagyon fontos, milyen utasításokat adunk nekik a kimenettel kapcsolatban. Nincsenek aranyszabályok, de már most komoly tanulságok vonhatók le a ChatGPT berobbanását követő közel másfél év tapasztalataiból.

Mi vagy ki az MI, minek szeretnénk látni: romantikus költőnek, marketin-szakértőnek, könyvvizsgálónak, absztrakt festészettel foglalkozó művészettörténésznek, elsőéves joghallgatónak, állatélelmezés-felelősnek? Kinek, milyen közönségnek megy az anyag? Jobb, ha a chat legelején pontosítjuk ezeket.

prompt_2.jpg

Tegyük láthatóvá az implicit dolgokat, mert az MI nem lélekbúvár, nincsenek telepatikus képességei, nem olvas a gondolatainkban, nem találja ki, mit akarunk közölni vele. Fejben kell tartanunk, és a legvilágosabban kell megfogalmaznunk a célunkat. Kezdjük a kért cselekvéssel („magyarázd el”), pontosítsuk a végső kimenet formáját, hosszúságát, korlátait, kontextusát. Minél homályosabban fogalmazunk, az output annál távolabb lesz a várttól.

A végeredmény megfelelő tónusa, stílusa ugyanolyan fontos, mint a tartalma, nem mindegy, hogy Botticelli vagy Basquiat stílusú kép kell, a szöveg lánglelkű poézis vagy tényszerű, számszerűsített termékleírás stb.

prompt0_2.jpg

Figyeljünk a helyesírásra, nyelvhelyességre, nyelvtanra, hanyagoljuk a közösségi médiában megszokott rövidítéseket, mert ha nem, készüljünk fel a csalódásra.

Ha csalódás az első eredmény, magyarázzuk el az MI-nek az okokat, a magyarázattal finomítsunk a prompton, Elsőre egyébként is nagyon ritkán kapjuk azt, amit vártunk, folyamatos kommunikációval, iterációkkal, pontosításokkal juthatunk csak el az ideális kimenetig.

Maradjunk mindig pozitívak, ne mondjuk neki, hogy „ne csináld ezt és azt!” Legalábbis az elején, mert később már lehetünk kritikusak, miközben számunkra kedvező alternatívákat sugallhatunk neki, mint például „ez a kép túl kaotikus, az élénkpirosnál jobb a mélybíbor.”

Fogadjuk el, hogy az MI-nek megvannak a maga korlátai, és a gyakorlóadatait emberek szedték össze, tehát részrehajlása, elfogultsága a fejlesztőknek tudható be. A végeredményt senki nem ellenőrzi, úgy is viszonyuljunk hozzá.

Ne adjunk meg neki személyes infókat se magunkról, se a hozzánk közelállókról. Ettől még nem lesz jobb a prompt, másrészt személyiségjogi és biztonsági okok miatt.

Újabb lépés a kvantuminternet felé

A kvantuminformáció megosztásának lehetősége kulcsjelentőségű elosztott számításokhoz és biztonságos kommunikációhoz használandó kvantumhálózatok fejlesztéséhez. Maga a kvantumszámítás olyan fontos probléma- és feladattípusokban segíthet majd, mint pénzügyi kockázatok optimalizálása, adatok visszafejtése, molekulák tervezése, anyagok tulajdonságainak tanulmányozása.

A fejlődést hátráltatja, hogy a kvantuminformáció elveszhet, ha nagy távolságra továbbítják. A korlát kiküszöbölésének egyik módja a hálózat kisebb szegmensekre osztása, és az összes szegmens megosztott kvantumállapottal történő összekapcsolása.

kvantum0_10.jpg

A megvalósításhoz a kvantuminformációt tároló és újból lekérését biztosító kvantummemória-eszközre van szükség. Ennek a szerkezetnek kommunikálnia kell egy, az elsősorban a kvantuminformáció létrehozását támogató másik eszközzel.

kvantum_15.jpg

Az Imperial College London, a Southampton Egyetem, a német Stuttgarti és Würzburgi Egyetem kutatói a világon elsőként hoztak létre ilyen rendszert: a két komponenst összekapcsolja, és szabályos optikai szálakat használ a kvantumadatok továbbításához.

A két kulcsfontosságú eszköz összekapcsolása döntő lépés kvantumhálózatok megvalósíthatósága felé – állítják a kutatók. Izgatottak, hogy elsőként nekik sikerült ezt demonstrálni.

Nagy távolságra lévő helyek, sőt kvantumszámítógépek csatlakozásának, összekapcsolásának lehetősége kritikus tényező a jövő kvantumhálózatai számára – fűzte hozzá Lukas Wagner (Stuttgarti Egyetem), a kutatási eredményeket ismertető, a Science Advances tudományos periodikában megjelent tanulmány társszerzője.  

Drónok figyelik az illegális halászatot a Nagy Korallzátonynál

Egyre nehezebb az illegális halászok élete az ausztráliai Queensland szövetségi állam partjainál, a Nagy Korallzátonynál. Az illetékes szervezet, a GBRMPA (Nagy Korallzátony Tengeri Park Hatóság) figyelő és személyeket azonosító új dróntechnológiával mindent megtesz ellenük. A déli félteke nyarán a drónt sikeresen tesztelték.

Az illegális halászok által kedvelt egyes szigeteket és zátonyokat kellett felügyelnie. A hatóságok jól tudják, hogy ezeken a területeken végzik tevékenységüket, és a drón össze is gyűjtött hasznos információkat a védett zöld zónában ténykedő halászhajókról.

korallzatony.jpg

A gép neve Aerosonde 4.7, azaz – új fegyverként szolgáló – légi szonda.

A sokkal a látótávolság felett működő, sötétben is repülő drón fényképes, videó- és radar-bizonyítékokat gyűjt. Nappali infravörös és ultrazoom objektíveket tartalmazó gimbal kamerával rendelkezik, a nagy magasságban történő mozgást érzékelő optikai, hő-, radar- és egyéb szenzorok kombinációjával.

korallzatony1.jpg

A drón menetsebessége maximum 120 km/h, akkumulátora tizennyolc óráig bírja egy töltéssel, szigetekről ugyanúgy útnak indítható, mint járőröző hajókról. A GBRMPA vezetősége elmondta, hogy az információgyűjtés stratégiái több mint egy évtizede szerepelnek programjaikban.

A szó szerint zavarosban halászók számára észrevétlen, felderíthetetlen drón megváltoztathatja tevékenységüket. Fogalmuk sincs, mikor örökíti meg őket az ember nélküli légi jármű. Ott ácsorognak, halásznak, miközben a bíróságon minőségi bizonyítéknak számító felvételek sokasága készül róluk.

A bűnözők viszonylag rövid idő alatt viszonylag nagy mennyiségű halat tudnak lehalászni a védett területen. A megfigyelést korábban kisebb drónok végezték. Alacsonyabban repültek, lassabbak voltak, akkumulátoruk nem bírta sokáig, az illegális halászok viszonylag könnyen észrevették őket. Még ma is használatban vannak, de a GBRMPA elismeri: megközelítőleg sem olyan hatékonyak, mint Aerosonde 4.7. Kevesebb bizonyítékot gyűjtöttek, most viszont a törvényszegők is elgondolkodhatnak, mert egyértelműen sokkal többet kockáztatnak.

A Queenslandi Tenger Gyümölcsei Ipari Szövetség szerint meg kell őrizni a természetvédelem és a halászat egyensúlyát. Az illegális halászat komoly veszélyt jelent a törékeny egyensúlyra – közölték.

A szűk mesterséges intelligencia után a kompetens MI jöhet, és csak aztán az általános MI

A mesterséges intelligencia (valószínűsíthető) fejlődését három szakaszban írtuk le eddig.

A jelenlegi rendszerek, a go-bajnokokat verő algoritmusoktól az önvezető járművekig, sőt, a generatív modellekig, a gyenge MI-ként is ismert szűk MI (narrow AI) kategóriába tartoznak (első kép). Részterületeken, speciális feladatokban egyre jobban teljesítenek, bámulatos eredményeket érnek el, gyakran az embert is felülmúlják. Nagyon mélyre ásnak, csakhogy ezek a területek, feladatok általában jól számszerűsíthetők, és minél szűkebbek, annál hatékonyabban dolgoznak a gépek. Az önvezető autó még nem tudja legyőzni a sakkvilágbajnokot. Szakbarbár.

kompetens_mi.jpg

A második fejlődési fázis, az emberrel minden területen azonos eredményre képes általános mesterséges intelligencia (artificial general intelligence, AGI). Ezek az MI-k egyik feladatról teljesen másra váltva sem nullázódnak le, ugyanazon a magas szinten abszolválják, a korábban tanultakat tudják alkalmazni az újakra, nem felejtenek, maguk mögött tudják a szűk MI-re jellemző katasztrofális felejtést.

A harmadik, a mesterséges szuperintelligencia vagy csak szuperintelligencia (superintelligence) az embert minden területen felülmúlja, és olyan szintre jut el, amit a Homo sapiens már nem fog fel, nem értjük a cselekedeteit. Ők a sci-fi irodalomból és filmekből ismert, hol segítőkész, hol mindent elpusztító, a világra szenvedést hozó gépek. Tőlük illik rettegni, és őket vizionálják bele jövőképükbe a súlyos korlátozásokat, vasszigorú szabályozást követelők.

Konszenzus van arról, hogy az AGI szuperintelligenciává válása gyorsabban fog megvalósulni, mint a szűk MI általános mesterséges intelligenciává alakulása. Időpontokról felesleges elmélkedni, mert ahány kutató, annyi dátum. Egyesek szerint néhány év, mások évtizedekről, megint mások 2100-ról vagy évszázadokról beszélnek, míg vannak szakemberek, akik szerint soha nem lesz AGI. (A problémát bonyolítandó, az intelligenciának sem csak egy definíciója ismert, továbbá nem keverendő össze a tudatossággal, én- és öntudattal.)

kompetens_mi0.jpg

Mustafa Suleyman (második kép), egykori DeepMind-, majd Inflection AI-társalapító, március óta a Microsoft AI, a nagyvállalat fogyasztói MI-részlegének vezérigazgatója, a 2023-as A következő hullám (Mesterséges intelligencia, technológia, hatalom és a 21. század legnagyobb kihívása) kötet szerzője szerint a szűk MI és az általános MI között is van egy fejlődési fázis. Ez a kompetens mesterséges intelligencia, az ACI (artificial capable intelligence): „olyan pont az MI és az AGI között, ami felé gyorsan közeledünk: az ACI jól teljesít összetett feladatok széles skáláján, de még így is messze van attól, hogy teljesen általánosnak lehessen nevezni.” 

Ezek a feladatok különbözőek, de kapcsolódnak egymáshoz, és az ACI megérti a látszatra különféle területek közötti összefüggéseket (például rendezvényeket szervez, vagy a repülőjegytől az étteremfoglalásokig, egy utazás összes aspektusában segíti a felhasználót) – a szűk MI egyetlen, az AGI változatos, egymáshoz nem kapcsolódó feladatokat hajt végre.

Egyes generatív modellek a szűk MI és az ACI közötti területre sorolhatók. Már nem szűk MI-k, viszont még nem is ACI-k, az AGI-től pedig messze leledzenek.

 

Közeledik a robotika „ChatGPT-pillanata”?

A robotika Szent Grálja a diszciplína kezdetei óta a házimunkáinkat elvégző gépek voltak. Hosszú évtizedekig csak álmodozhattunk róluk, mert teljesen más kontrollált laboratóriumi körülmények között, aprólékos tervezés után megvalósítani valamit, mint folyamatosan változó, akadályokkal teli közegben, például az otthonainkban.

A robotikusok körében jól ismert Moravec-paradoxon alapján, amit az ember nehezen csinál meg, könnyű egy gépnek, és ami az embernek könnyű, az a gépnek nehéz. A mesterséges intelligenciának köszönhetően, változik a helyzet, robotok egyre jobban hajtanak végre korábban kivitelezhetetlen feladatokat: összehajtják a ruhát, főznek, kipakolják a bevásárlókosarat stb.

robot_chatgpt.jpg

A szakterület inflexiós ponthoz érkezett. Több trend, szerencsés összjátékuk következtében a robotok talán tényleg kiléphetnek a laborok zárt világából, és bemasírozhatnak otthonainkba.

Az első a hardver-áresés, többek számára teszi hozzáférhetővé a kutatásfejlesztéseket. Bonyolultabb szerkezetek többszáz millió dollárba kerülnek, viszont egyre gyakoribbak az olcsóbb masinák. A Hello Robot startup által a pandémia alatt fejlesztett Stretch költsége 18 ezer dollár volt – mobil, kamerával szerelték fel, karján markoló, konzol kontrollerrel irányítható, poharakat szed össze. A Stanford Egyetem Mobile ALOHA gépe boltban beszerezhető komponensekből álló, nyílt forrású, távvezérelt rendszer, rákokat főz már.

robot_chatgpt0.jpg

Az MI a második, segítségével agyat építhetünk robotoknak, azaz szoftver-szinten is óriási az előrelépés. Fejlesztők a fizikai ügyességről, mélytanulással és neurális hálókat használva, az általános rendeltetésű „agyra” helyezhetik a fókuszt.

A Google tavaly nyáron debütált RT-2 modellje online szövegekből és képekből érti a világot, és lép interakcióba környezetével. Tanulással és gyakorlással jutott el eddig. A Toyota, a Columbia Egyetem és az MIT (Massachusetts Institute of Technology) kutatói imitációs tanulással és generatív MI-vel több cselekvést, különösen mozdulattípusokat gyorsan elsajátítattak robotokkal. Az OpenAI multimodális BFM 1-e szöveges, képi, videó-, robotutasítások (promptok) vagy mérések alapján, azokat megértve generál a feladatokról képeket vagy videókat.

A harmadik ok, hogy a több adat alapján a robotok több adottságot sajátítanak el. A nagy nyelvmodellek (LLM-ek) esetében az internetről összegyűjtött irdatlan mennyiségű tanulóadat nem működik náluk, mert speciálisakra – mosógép vagy jégszekrény kinyitásának, ruhák összehajtogatásának fizikai bemutatására stb. – van szükségük. Egyelőre kevés az ilyen adat, és sokáig tart, ha emberek gyűjtik össze őket.

A Google DeepMind egyik új projektje (Open X-Embodiement Collaboration) változtatni akar ezen. Harmincnégy kutatólabor százötven tudósával huszonkét robottól gyűjtött adatkészletüket 2023 októberében publikálták. A robotok 527 adottságot mutattak be.

Minél több az adat, annál okosabbak a robotok. A kutatók két modellt építettek: az egyik helyi számítógépeken fut, a másik hozzáfér a webhez. Utóbbit a „vizuális józanészre”, a világ megértésének alapjára tanították, és amikor különféle robotokat működtettek vele, a laboratóriumi változatnál ötven százalékkal sikeresebben sajátítottak el adottságokat.

Meta: elég a generatív mesterséges intelligenciából, jöjjön a célalapú MI!

Általános vélekedés, hogy a generatív mesterséges intelligencia a mai fejlesztések csúcspontja, a legelőremutatóbb irányzat. Yann LeCun, a Meta (Facebook) MI-guruja másként gondolja: még a legfejletlenebb állatok is értelmesebbek a jelenlegi gépi értelemnél.

Szerinte a nagy nyelvmodellek (LLM-ek) szűk területeken ugyan létrehoznak az embert felülmúló szövegeket, alapvetően viszont a következő szó előrejelzésével működnek, és ebből a folyamatból hiányzik a kontextus valódi megértése, nincs kapcsolatuk a fizikai világgal. Hatásosan folyékony, de tárgyi tévedéseket tartalmazó, a józanész-szerű megértés hiányát jelző kimenetek az eredmény.

objective_driven_ai.jpg

Ezzel szemben az emberek és az állatok minimális adatból is tudnak tanulni, ügyesen alkalmazkodnak új szituációkhoz, az elsajátított ismereteket változatos kontextusokra alkalmazzák, azaz értik a világot és komplex dinamikáját. Ez a természetes intelligencia vezet a józanészhez, a fizika törvényeinek felfogásához, következtetéshez és érveléshez. A generatív MI távol van ettől, egyik kritikus korlátja a valódi megértés és innováció hiánya.

Mivel nem fogják fel a fizikai világ összetettségét, és nem generálnak józanész-válaszokat, nem is lehetnek tényszerűek, így pedig hiányzik belőlük a következményekkel járó alkalmazásokhoz szükséges mélység, megbízhatóság.

LeCun a célvezérelt MI-re történő váltásban látja a megoldást: a technológia újradefiniálását tartja célszerűnek. Mintázatfelismerő eszközből a világot az emberhez és állatokhoz hasonlóan értő, előrejelző és a környezettel ugyanúgy interakciókat folytató, belső világmodellt építő rendszerré alakítaná. Ezek a majdani rendszerek kimeneteket szimulálnak, a jövőre következtetnek, információalapú döntéseket hoznak speciális feladatok megvalósításához. Megértik a cselekvések és a következmények közötti összefüggéseket, valósidőben terveznek, alkalmaznak stratégiákat.

A célvezérelt MI nem inkrementális javulás, hanem tényleges ugrás az emberrel együttműködő, megoldásokat javasló, következményeikkel tisztában levő gépek felé.

A kutató elismeri: monumentális, jóval nehezebb feladatról van szó, mint sokan elképzelik. Ennek ellenére optimista, mert a jövő MI-je minden területen felül fogja múlni az embert. A változás nem egyik napról a másikra megy majd végbe, át is kell gondolnunk hozzá az MI-fejlesztés mostani megközelítéseit. A váltáshoz technikai innováció mellett az intelligencia fogalmának és mesterséges rendszerekbe integrálásának módját szintén újra kell definiálnunk.

süti beállítások módosítása