Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Ellenségeket keres az arcfelismerő rendszer

2023. január 20. - ferenck

A 2020-ban alakított Madison Square Garden (MSG) Entertainment szórakoztatóipari holding az Egyesült Államok több városában működtet létesítményeket. A cég mostanában arcfelismerő technológiával igyekszik megakadályozni vélt ellenségeinek bejutását a Madison Square Gardenbe és a Radio City Music Hallba.

A technológiát legalább két alkalommal használták a cég elleni bírósági eljárásokban résztvevő ügyvédi irodáknál dolgozó jogászok kiutasítására.

madison_sg.jpg

November 22-én a Radio City Music Hall őrei, miután az arcfelismerő rendszer azonosította, nem engedték be egy hangversenyre a lánya társaságában megjelenő Kelly Conlon ügyvédet. Conlon személyi sérülés kárvallottját képviseli egy perben az MSG ellen.

Októberben, szintén az arcfelismerőre hagyatkozva, az MSG egyes részvényeseit a vállalat elleni peres eljárásban képviselő Barbara Hart jutott ugyanerre a sorsra a Madison Square Garden bejáratánál.

madison_sg0.jpg

A MSG bejelentette: jogilag egyik eset sem támadható. Bejáratott stratégiájuk, hogy a velük szemben aktív perekben érintett cégek által alkalmazott ügyvédek nem jelenhetnek meg a vállalat szórakoztatóipari létesítményeiben, függetlenül attól, hogy az adott ügyvéd szerepel a pereskedésben, vagy sem.

A beengedés megtagadása azért történhetett meg, mert magáncégek esetében New York nem korlátozza az arcfelismerő technológiák használatát. Az MSG legalább 2018 óta alkalmaz arcfelismerést: a szórakoztatóipari létesítményeinél megjelent személyeket a rendszer fényképes adatbázissal veti össze, és azonosság esetén, felcímkézi a nem kívánatosnak vélteket.

Mielőtt Coulont nem engedték be a Madison Square Gardenbe, egy bíróság kimondta, hogy az MSG jogában áll érvényes jeggyel nem rendelkező személyektől – bárkitől – megtagadni a belépést. A bíróság (nyilván a kezeit mosva) abban már nem foglalt állást, hogy mi van, ha egy „ellenségnek” van jegye.

A magánjog (privacy) megsértésétől félő aktivisták régi aggodalma, hogy az arcfelismeréssel lehetővé válik vállalatok számára egyéneken megtorolni az őket ért valós vagy vélt sérelmeket. Az MSG a technológiát pont erre a célra, feltételezett ellenségeinek kiszűrésére, büntetésére alkalmazza.

Széndioxidot, műanyaghulladékot alakít hasznos üzemanyaggá egy napenergiás gép

A Cambridge Egyetem kutatói a széndioxidot és a műanyaghulladékot is fenntartható üzemanyaggá és más értékes anyagokká átalakító, kizárólag napenergiával működő gépet fejlesztettek.

Fejlesztői szerint a gép több szempontból is egyedi: nem csak azért, mert a bolygónkat elpusztító melléktermékeket hasznos anyagokká változtatja, hanem azért is, mert több anyaggal tud egyszerre dolgozni.

A kutatás legfőbb célja a hulladék valóban hasznos termékké alakítása napenergia segítségével.

ujrahasznositas.jpg

„A műanyaghulladék világszerte óriási probléma, és gyakran előfordul, hogy az újrahasznosításra szánt kukákba dobott műanyagok nagy részét vagy elégetik, vagy hulladéktárolóban végzik” – magyarázza Erwin Reisner, a kutatás egyik vezetője.

A műanyaggal történő környezetszennyezés és az üvegházhatású gázok ellen hatékony napenergia vezérelte technológia pontosan ezért változtathat meg mindent, lehet mérföldkő a körkörös technológiák fejlődésében.

A gép működése bonyolult.

Az üvegházhatású gázok és a műanyaghulladék külön tárolására kidolgozott két rekeszből álló reaktor a következőgenerációs napelemekhez a szilícium ígéretes alternatíváját jelentő fényelnyelőt, perovszkitot (kalcium-titanátoxidásványt) használ. A fényelnyelőbe, a gép outputjának függvényében módosítható, finomhangolható vegyi katalizátor ágyazható.

A rendszert pontosan ez a módosíthatóság, finomhangolhatóság teszi egyedivé. Most egyszerű szénalapú molekulák, de a jövőben, csupán a katalizátort megváltoztatva, komplex termékek is készíthetők vele.

A széndioxid átalakításához általában sok energia kell, az új rendszerrel viszont elég a napfény, és a káros anyagokat elkezdi hasznossá és fenntarthatóvá változtatni. Előtte semmiféle megoldás nem létezett értékes termékek szelektív és hatékony létrehozására.

Az anyagokat átlagos nyomás és hőmérséklet mellett tesztelve, a fotoelektrokémiai rendszer PET műanyag palackokat és széndioxidot többfajta szénalapú üzemanyaggá és más keresett matériákká, például a fenntartható folyékony üzemanyagok kulcskomponensévé, szintetikus gázzá, valamint a bőrápoló cégek kedvenc vegyszerévé, glikolsavvá alakította.

A következő években a kutatók komplexebb részecskék újrahasznosítását, reciklálását és megváltoztatását tanulmányozzák. Idővel a rendszer teljes újrahasznosító üzemek energiaellátását is megoldhatja.

Az Instagramon azonosítják a szélsőjobboldali lázadókat Brazíliában

Január nyolcadikán Brazíliaváros legfontosabb közhivatalait, köztük a nemzeti kongresszus, a legfelsőbb bíróság épületét és az elnöki palotát az októberi elnökválasztási eredményeket, a baloldali Lula győzelmét megkérdőjelező, (bizonyítékok nélküli) csalást kiáltó Bolsonaro-hívek rohamozták meg, és foglalták el.

A „puccs” nem tartott sokáig, a hatóságok hamar véget vetettek a randalírozásnak, majd néhány órával később új Instagram-fiók, a Contragolpe Brasil (Brazil Ellenpuccs) jelent meg a közösségi hálózaton. A lázadás résztvevőit ábrázoló fotókat posztoltak rajta, azzal a bevallott céllal, hogy azonosítsák őket, és a hatóságok számára megkönnyítsék az elmenekült „puccsisták” azonosítását, elfogását.

Huszonnégy óra elteltével már 1,1 millióan követték a fiókot.

brazilia.jpg

David Nemer, a Virginia Egyetem médiatanulmányok professzora szerint egyáltalán nem meglepő az új fiók. A lázadók is WhatsApp csoportokban, Telegram csatornákon szervezkedtek, az egészet kvázi bejelentették a közösségi médián. Lehetett számítani rá, senki nem lepődött meg rajta, nem maradt titokban.

A lázadók az eseményeket követően is masszív nyomot hagytak maguk mögött a közösségi médiában: videókat, fényképeket osztottak meg, továbbítottak üzenetküldő alkalmazásokon. Ezek közül többtucatnyit összegyűjtöttek, majd közkinccsé tettek a Contragolpe fiókon. A képeken szinte kivétel nélkül Brazília sárga és zöld színeibe öltözött személyek arca látható.

A fiók üzemeltetői őrzik anonimitásukat, médiumok kérdéseire nem válaszolnak, a posztolókat viszont arra kérik, hogy a lázadókat leleplező információikat küldjék el a rendőrségnek is.

A Contragolpe Brasil nem az egyetlen a „tömegek bölcsességén” (crowdsourcing) alapuló közösségi kezdeményezés, mert az Agéncia Lupa tényellenőrző ügynökség is létrehozott egy, az olvasók által generált szöveges, képi és videoanyagokból álló adatbázist a lázadás napjáról. Az összes infót anonim küldik nekik.

Tömegmegmozdulások résztvevőinek a közösségi médián történő azonosítása nem új. 2021. január hatodika, a Capitolium Trump-hívők általi megrohamozása után az Egyesült Államokban szintén azonosítottak posztok alapján az online térben összeesküvő szervezeteket, személyeket.

A Contragolpe Brasil elindítása után özönleni kezdtek a posztok is, nevekkel, címekkel, fotókkal, Instagram-fiókokat taggeltek be, amelyek aztán gyorsan el is tűntek.

Személyek online azonosításának megvannak a súlyos kockázatai is. A legevidensebb, hogy tévedünk. Egy nő például azt mondta, hogy egyáltalán nem vett részt a lázadásban, hanem egy résztvevő meghackelte. Rosszakarók is árthatnak így haragosaiknak, vagy felébred az állampolgárokban rejlő ősi feljelentő ösztön. Minden szöveg, kép, videó manipulálható. Ráadásul egyes állításokat szinte lehetetlen ellenőrizni.

Egyelőre nem tudni, hogy a hatóságok használják-e a Contragolpe Brasil Instagram-fiókot.

Mi lesz a nagy nyelvmodellekkel?

Mi történik a jövőben a mesterséges intelligencia egyik leggyorsabban fejlődő területével, a nagy nyelvmodellekkel (large language models, LLM), a felhasználók csak kevés cég csúcstechnológiái, vagy sokkal több fejlesztő szintén hatékony modelljei közül válogathatnak? – teszi fel a kérdést Andrew Ng, a gépi tanulás egyik abszolút szaktekintélye.

Azonnal meg is válaszolja: ugyan az LLM-fejlesztések kezdeti szakaszában járunk, de a felhasználók sok vállalat modelljeihez hozzáférhetnek majd, ami nagyon jót tesz az innovációnak.

llm.jpg

Ezen a területen is ugyanaz történik, mint az infokom más szegmenseiben: a tegnap szuperszámítógépei a holnap zsebóráivá válnak. Egy mai LLM begyakoroltatásához rengeteg adat és komoly infrastruktúra kell, a trendek viszont a szélesebb körű elérhetőséget vetítik előre.

Ng hármat emel ki.

Népszerűvé válnak és egyre jobb teljesítményt nyújtanak a nyílt modellek, mint a Big Science BLOOM-ja, a Tsinghua Egyetem GLM-je és a Meta OPT-je. Az utóbbit a kutatókat bátorító, a kereskedelmi felhasználást viszont kizáró, szigorú licenc alapján tették közzé. A mai nyílt modellek kétségtelenül nem annyira jók, mint egyes cégek szabadalmaztatott darabjai, viszont gyors fejlődés előtt állnak.

A kutatók a gyakorlás hatékonyságát növelő technikákat fejlesztenek. A terület egyik élenjárója, a Google-hoz tartozó londoni DeepMind ajánlásokat tett közzé LLM-ek trenírozásáról: hogyan tegyük eredményesebbé őket fix, tehát korlátos költségvetés mellett. Kiderült: akár egyetlen GPU-n (grafikus feldolgozó egységen), egy nap alatt szignifikáns mértékben növelhető egy modell teljesítménye, ráadásul nyolc-, sőt, négy-bites számításokkal is komoly haladás érhető el.

Minél többen fejlesztenek és tesznek közzé nagy nyelvmodelleket, annál szisztematikusabb lesz a költségek, hozzáférhetőség és más feltételek alapján történő kiválasztást segítő összehasonlítás. A felhasználó könnyebben megtalálja, amire tényleg szüksége van. Szerencsére léteznek már kimerítő és pontos összehasonlító LLM-elemzések.

Ng többször (Stanford, Google stb.) dolgozott már a legnagyobb rendszerekkel, de aztán mindig jöttek még gyorsabbak, még jobbak. Egy mai LLM esetében rengeteg számítási kapacitás szükséges, de az infokom eddig történelméből egyértelműen kiderül: ez nem lesz mindig így, és inkább előbb, mint utóbb, lényegesen leegyszerűsödik a gyakorlás és a tanulás.

(Az ábra a mai nagy nyelvi modellek összetett és bonyolult, időnként ellentmondásos működését szemlélteti.)

Kamuágensünk beszélget az ügyfélszolgálattal

Senki nem szereti az idejét azzal tölteni, hogy telefonon ügyfélszolgálattal beszélget. Szerencsére a mesterséges intelligencia idejétmúlttá teheti ezt a gyakorlatot. Emellett időt spórol meg, és valószínűleg valamilyen kártérítést is kibeszél nekünk.

Joshua Browder, a DoNotPay (Ne fizess) fogyasztóvédelmi szervezet igazgatója a telefon menüjében önállóan navigáló, saját hangjának kamuváltozatát (deepfake) használva, ügyfélszolgálatosokkal beszélgető rendszert mutatott be. A cég általános hangokkal működő ingyenes, és a felhasználóét leklónozó fizetős változatot is kínál a nagyközönségnek.

do_not_pay.jpg

Egy, a YouTube-ról eltüntetett videó demón hallható és látható volt, ahogy a rendszer egy bank képviselőjével elektronikus átutalási díjak visszatérítéséről tárgyal.

Az OpenAI GPT-3.5 nyelvi modelljének automatizált ügyfélszolgálati felszólításokra finomhangolt példányát használva, lépett interakcióba vállalati hangportálokkal.

A Resemble.AI klónszolgáltatás létrehozta Browder hangjának szintetikus változatát.

Elérve a humán ügyfélszolgálatost, a rendszer beszélgetés közbeni válaszokat generált, és a Huggingface nyíltforrású GPT-J modelljének a segítségével töltött fel a Clone-ra. (A GPT-3.5-öt jogi okok miatt nem használták.)

Ennyi történt.

Megválaszolatlan etikai kérdés: embereket, legyen szó fogyasztókról vagy ügyfélszolgálatosokról, értesíteni kell-e arról, hogy bottal beszélgetnek? Ez azért fontos, mert a technológia magában hordja a csalás lehetőségét, sőt, „fel is kínálja” azt. Cyberbűnözők adathalász támadásoknál visszaéltek már az OpenAI nagy nyelvmodelljeivel. 2020-ban például ügyfél hangját szintetizálva, egy bűnözőcsoport négyszázezer dollárt csalt ki az egyik dubai banktól.

Egy automatizált doppelgänger persze mindig jókor jön, és valóban hasznos, ha helyettünk beszél az ügyfélszolgálattal. De mivel vállalatok és pénzügyi szervezetek egyre jobban megerősítik a csalás elleni védelmüket, ebből kifolyólag, az automatizált ügyfeleknek nyújtandó szolgáltatásokat is könnyen visszaminősíthetik.

Amazon: az átláthatóság az „MI, mint szolgáltatás” kulcsa

A modellkártyák sokat segíthetnek a felelősségteljes mesterségesintelligencia-használatban. Százezrek dolgoznak MI-funkciókat, köztük beépített modelleket tartalmazó felhőszolgáltatásokkal, és jobb, ha eleve tudják, milyen céllal fejlesztették az adott modellt, mik a korlátai stb. Mindezek ismeretében hatékonyabban alkalmazzák, nagyobb valószínűséggel elkerülik a hibákat, az esetleges morális és jogi problémákat.

Az Amazon Webszolgáltatások egyes általa kínált modellek használatát és korlátait leíró, úgynevezett MI szolgáltatáskártyákat – „MI, mint szolgáltatást” (AI as a Service, AIaaS) – vezetett be. A lépés elismerése annak az igénynek, hogy le kell írni, közkinccsé kell tenni a nyilvánosság számára hozzáférhető gépitanulás-modellek működését.

amazon_8.jpg

A vállalat első lépésben három MI-modellt dokumentált: a Rekognition az arcegyeztetéshez, a Textract AnalyzeID dokumentumok szövegekből történő kivonatolásához, a Transcribe beszéd szöveggé alakításához hasznos.

A valószínűsíthető felhasználási forgatókönyveket leíró részben az alkalmazásokat és a kockázatokat veszik sorba. Például a Rekognition kártyája az identitáshitelesítést is ismerteti: a modell szelfiket társít kormányzati dokumentumok képeihez, médiaalkalmazásokhoz. A fotókon, videókon látható arcok egyeznek a dokumentumokban, alkalmazásokban szereplő személyekkel.

A modell tervezésével kapcsolatos részben elmagyarázzák, hogyan fejlesztették és tesztelték, milyen teljesítményt várnak el tőle. A kártya információt szolgáltat a modell elmagyarázhatóságáról, átláthatóságáról és hogy mennyire érinti a felhasználó magánszféráját (privacy), illetve arról is, hogy a fejlesztő mit tett a részrehajlás elkerüléséért. A Textract AnalyzeID-ről megtudjuk, hogyan gyűjtötték össze a gyakorlóadatokat, amelyek alapján a modell változatos földrajzi régiókból szármató dokumentumokból kivonatol szövegeket.

Az üzembe helyezésről szóló rész bevált gyakorlatokat kínál a modell teljesítményének optimalizálásához. A Transcribe-nál leírják, hogy célszerű, ha a felhasználó a mikrofonhoz közel tartózkodik, mert a háttérzajokat csak így képes elkerülni. Azt is megtudjuk, hogyan alkalmazzuk a regionális dialektusok vagy műszaki nyelv átírásában segítő speciális szótárakat.

Az Amazon a felhasználói közösségek visszajelzései alapján folyamatosan frissíteni fogja az összes szolgáltatáskártyát. Modelleket fejlesztő ügyfeleinek pedig forrásokat kínál ahhoz, hogy hogyan készítsék el saját kártyáikat.

Egy olasz robot majdnem úgy farag márványszobrokat, mint Michelangelo

A Robotor olasz startup robotja majdnem olyan jól farag carrarai márványból szobrokat, mint reneszánsz-kori elődei. Legalábbis a cégalapító Giacomo Massari úgy gondolja, hogy a gép által készített munkák szinte annyira míves darabok, mintha ember alkotta volna őket.

„Szerintem, mondjuk kilencvenkilenc százalék. Viszont pont az emberi érintés az, ami miatt a különbség fennáll. A maradék egy százalék nagyon fontos” – jelentette ki Massari.

michelangelo.jpg

Egy lépéssel tovább is ment. A robottechnológia nem lopja el emberek munkáját, hanem javít rajtuk – állítja. Elég merész gondolat, ha figyelembe vesszük, hogy a szobrászat többezer éves fejlődés eredményeként jutott el a mai szintig, illetve a reneszánsz vagy az antik világ mestereinek örökérvényű műveiig.

Igaz, azt is tudjuk, hogy a gépi evolúció – elvileg legalábbis – sokkal gyorsabb, mint a természetes.

michelangelo0.jpg

Az IL nevű szobrászrobot cinkötvözetből készült, közel négy méter magas behemót. Éjjel-nappal, megállás nélkül képes faragni a márványt, fejlesztői szerint forradalmi technológia.

Az anyag ma már akár extrém körülmények között is megmunkálható, átalakítható, korábban elképzelhetetlennek tartott komplex alkotások hozhatók létre belőle – állítja a fejlesztőcég.

A Robotor szerint „a szobrászat új korszakába lépünk. Ez a művészet már nem törött kövekről, vésőkről és porról, hanem szkennelésről, pontfelhőkről és designról szól” – teszik hozzá.

Nem mindenki örül a szobrászrobotnak, sőt, általában a művészi tevékenységet végző más robotoknak, mesterséges intelligenciának sem. Egyes alkotók szerint ezek a gépek pont a kézművességet, az évezredes hagyományok átörökítésével kialakult szaktudást ölik ki például a szobrászatból. Valami nagyon fontos, lényegbevágó vész oda hagyományos folyamatok új technológiákkal történő modernizálásakor – érvelnek.

„Elfelejtjük, hogyan dolgozzunk a kezünkkel. Remélem, hogy azért valamennyi szakmai ismeret és tudás mindig megmarad, viszont ahogy megyünk előre az időben, egyre nehezebb lesz megőrizni” – nyilatkozta Lorenzo Calcinai, a firenzei katedrális szobrásza.

Mesterséges intelligencia a munkahelyeken

Sok dolgozó tart attól, hogy munkahelyét mesterséges intelligencia miatt veszítheti el. A félelem ugyan nem megalapozatlan, az utóbbi évek felmérései viszont pont az ellenkezőjét támasztják alá, azaz az MI inkább támogatja, semmint helyettesíti a humán munkaerőt.

2008 és 2018 között az MI és az általa mozgatott automatizáció miatt fenyegetettnek vélt több területen, például gyorséttermekben, fordítói és pénzügyi tanácsadó munkakörökben növekedett az alkalmazottak száma.

ai_use.jpg

Az MIT és a Boston Consulting Group friss felmérése alkalmazottak napi szintű munkával kapcsolatos MI-használatát vizsgálta. Kiderült belőle: a technológia személyeknek és szervezeteknek egyaránt sok előnyt kínál, a munkáltatóknak viszont meg kellene taníttatniuk dolgozóikkal, hogy ezt észre is vegyék.

Persze az sem feltétlenül baj, ha nem ismerik fel az MI szerepét mindennapjaikban. A sikeres technológiák a háttérben maradnak, ott működnek, manapság például nem foglalkozunk az elektromosság áldásaival, és ha az MI az új elektromosság, akkor azt is eleve adottnak vesszük.

Húsz iparág, több mint száz ország 1741 képviselőjét, valamint tizenhét vezető beosztású személyt kérdeztek az MI használatáról.

ai_use0.jpg

Az alkalmazottak 34 százaléka elmondta: mérsékelten használja. Amikor speciális MI-megoldásokról szólt ugyanez a kérdés, további 28 százalék válaszolta, hogy rendszeresen vagy időnként dolgozik mesterséges intelligenciával.

64 százalékuk szerint mérsékelt, jelentős és kimerítő értékeket kap az MI-től, tíz százalék viszont semmit. Akik értékeket kaptak, átlagosan 3,4-szer elégedettebbek a munkájukkal, mint akik nem.

Az MI-ben megbízók kétszer annyit használják, mint a kételkedők. Akiktől elvárás az MI-használat, háromszor gyakrabban használják, mint akiktől nem az, és 1,4-szer valószínűbb, hogy felfedeznek benne valamilyen értéket.

A személyes és a szervezeti szintű értékítélet egymásra rímel: ha valaki a munkahelye elmondása alapján mérsékelt, jelentős és kimerítő értékeket kap az MI-től, az egyéni szinten is így áll hozzá – legalábbis a 85 százalékuk.

A felmérés szerzői négy kategóriára bontották az MI-használókat.

79 százalékuknál kereskedelmi termékekről (Grammarly, Siri stb.) van szó, 55 százalékuk esetében üzleti termékek, például ügyfélszolgálati kapcsolatokat kezelő megoldások, radiológiai képalkotók stb. 43 százalékuk speciális feladatokra (például teherszállító repülőgépek terhelésének optimalizálására) kitalált, egyedire kialakított, 37 százalékuk pedig többféle feladatot elvégző (például árazó, keresletet előrejelző és a raktárt kezelő Amazon) algoritmusokat használ.

Hogyan készítsen MI képet a mi macskánkról?

A tipikus szövegből képet generáló mesterséges intelligenciák előállhatnak például egy macska, de nem a mi macskánk képével. Azért nem, mert a szöveges utasítást, a promptot nehéz olyan pontosan megadni, hogy a macskánkat a többi macskától megkülönböztető összes jegy benne legyen.

Nvidia- és tel-avivi kutatók változtatni akarnak ezen, és egyedi objektumokat egyedi stílusban megörökítő – egyediségüket megragadó –, szövegből képet generáló módszeren dolgoznak.

Módszerük alapján, gyakorlás közben egy ilyen (diffúzión alapuló) generátor zajos képet és szöveges leírást használ kiindulásként. Egy transzformer megtanulja a szöveg beágyazását, míg a diffúziós modell a beágyazást a zaj egymást követő lépésekben történő eltüntetésére is használja.

precizios_kepalkotas.jpg

Tehát a rendszer tiszta zajjal és szöveges leírással kezdi, majd a szöveg értelmében, iteratív módon távolítja el a zajt a kép létrehozásához. Az egyik modellváltozat (látens diffúziós modell a neve) úgy takarékoskodik a számításokkal, hogy a zajt a zajos kép helyett egy kicsi és ismert vektorról tünteti el.

Maga a rendszer szöveges szóbeágyazásokat táplál a képgenerátorba. A kapcsolódó képek halmazát reprezentáló és megtanult beágyazás azt váltja ki a generátorból, hogy a szavak jelentéstartalma mellett, ezeknek a képeknek a közös tulajdonságait is igyekszik leképezni.

A kutatók az említett látens diffúziós modellen alapuló generátorral dolgoztak, amelyet az előzetesen a netről összeszedett négyszázmillió szöveg-kép páron gyakoroltatták.

Három-öt képet tápláltak bele, mindegyiken más beállításban és stílusban volt látható ugyanaz az objektum. Megadták a képleírást is, egy hiányzó, S* karakterrel jelölt szóval. A leírásokban olyan mondatok szerepeltek, mint „S* festménye”, vagy „festmény S* stílusában.”

A transzformer megtanulta S* beágyazását, például: „S* szemcsés fotója az Angry Birdsben.” A szavakat és S*-t is beágyazta. A modell a beágyazás alapján képpel állt elő.

A kutatók az eredeti és a generált képek beágyazásait összehasonlítva értékelték modelljük outputját. A hasonlóságot 0 és 1 közötti skálán mérték, ahol az 1 két azonos inputot jelöl. A modell 0.78-at ért el. Ember által kitalált, maximum tizenkét szavas (köztük S* is) promptokból készült képek 0,6, maximum harminc szavas, hosszabb leírásokból generált képeknél 0,625 lett az eredmény.

Az új módszerrel előbb-utóbb eljutunk addig, hogy a mesterséges intelligencia ne úgy általában egy macskáról, hanem tényleg a mi cicánkról alkot majd képet.

Elfogynak az adatok

A big data korában eljuthatunk odáig, hogy a kínálat szintjén nem lesz annyi adat, mint amekkora a kereslet. A paradoxon oka egyszerű és logikus: egyre nehezebb kielégíteni az egyre „nagyobb étkű” gépitanulás-modellek szükségletét.

Az Epoch AI kutatói szerint a szöveges adatokkal már idén bajok lehetnek, még ebben az évben jelentkezhet a hiány. A vizuális adatokkal minimum egy évtizeden belül várható hasonló helyzet.

adatok.jpg

A kutatók a jövőbeli szükségleteket, a hozzáférést, a címkézetlen nyelvi és képi adatokat hasonlították össze. A nyelvi adatok kiértékelésénél a Wikipediára, az Arxivra (elektronikus elő- és utónyomatok nyílt hozzáférésű tárháza), digitális könyvekből álló könyvtárakra összpontosítottak. Mivel ezeket az anyagokat szerkesztői és minőségkontrollnak is alávetik, különleges értéket jelentenek nagy nyelvmodellek gyakoroltatásánál.

Vizuális adatokként YouTube, Instagram, Snapchat, WhatsApp és Facebook álló- és mozgóképeket használtak.

Arra a következtetésre jutottak, hogy a nagy modellek trenírozásához szükséges adatsorok mérete sokkal gyorsabban fog növekedni, mint az adatellátás.

adatok1.jpg

A csúcsminőségű nyelvi adatok mennyisége évi négy-öt százalékkal növekszik. A szöveges adatsoroknak viszont minden tizenegy-huszonegy havonta meg kell duplázódniuk, azaz az egyensúly nehezen tartható fenn, és a hiány 2023 és 2027 közöttre prognosztizálható. Az adatminőség csökkentésével néhány év „menedék” várható, és így realisztikusabban a 2030 és 2040 közötti évtizedre várható a hiány.

A vizuális adatellátás évi nyolc százalékkal növekszik, míg az adatsorok képmennyisége két és fél-négyévente duplázódik. Tartva ezt a növekedési ütemet, valamikor 2030 és 2060 között lesz tapasztalható a hiány.

Az Epoch AI korábban már kiszámolta a gyakorló adatsorok méretbeli és történelmi növekedést. A legdinamikusabb növekedést a legnagyobb csúcsminőségű szöveges adatsorokon, a legalacsonyabbat a vizuális sorokon figyelték meg.

A jövőbeli számok, statisztikák viszont nemcsak természetüknél fogva, hanem más tényezők miatt is pontatlanok lehetnek – javulhat a modellek adathatékonysága, a szintetikus adatok jobb minőségűvé válhatnak, új adatforrások tűnhetnek fel.

Ha például tényleg elterjed at önvezető autó, hatalmas mennyiségű vizuális anyag generálódik.

süti beállítások módosítása