Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Amazon: az átláthatóság az „MI, mint szolgáltatás” kulcsa

2023. január 13. - ferenck

A modellkártyák sokat segíthetnek a felelősségteljes mesterségesintelligencia-használatban. Százezrek dolgoznak MI-funkciókat, köztük beépített modelleket tartalmazó felhőszolgáltatásokkal, és jobb, ha eleve tudják, milyen céllal fejlesztették az adott modellt, mik a korlátai stb. Mindezek ismeretében hatékonyabban alkalmazzák, nagyobb valószínűséggel elkerülik a hibákat, az esetleges morális és jogi problémákat.

Az Amazon Webszolgáltatások egyes általa kínált modellek használatát és korlátait leíró, úgynevezett MI szolgáltatáskártyákat – „MI, mint szolgáltatást” (AI as a Service, AIaaS) – vezetett be. A lépés elismerése annak az igénynek, hogy le kell írni, közkinccsé kell tenni a nyilvánosság számára hozzáférhető gépitanulás-modellek működését.

amazon_8.jpg

A vállalat első lépésben három MI-modellt dokumentált: a Rekognition az arcegyeztetéshez, a Textract AnalyzeID dokumentumok szövegekből történő kivonatolásához, a Transcribe beszéd szöveggé alakításához hasznos.

A valószínűsíthető felhasználási forgatókönyveket leíró részben az alkalmazásokat és a kockázatokat veszik sorba. Például a Rekognition kártyája az identitáshitelesítést is ismerteti: a modell szelfiket társít kormányzati dokumentumok képeihez, médiaalkalmazásokhoz. A fotókon, videókon látható arcok egyeznek a dokumentumokban, alkalmazásokban szereplő személyekkel.

A modell tervezésével kapcsolatos részben elmagyarázzák, hogyan fejlesztették és tesztelték, milyen teljesítményt várnak el tőle. A kártya információt szolgáltat a modell elmagyarázhatóságáról, átláthatóságáról és hogy mennyire érinti a felhasználó magánszféráját (privacy), illetve arról is, hogy a fejlesztő mit tett a részrehajlás elkerüléséért. A Textract AnalyzeID-ről megtudjuk, hogyan gyűjtötték össze a gyakorlóadatokat, amelyek alapján a modell változatos földrajzi régiókból szármató dokumentumokból kivonatol szövegeket.

Az üzembe helyezésről szóló rész bevált gyakorlatokat kínál a modell teljesítményének optimalizálásához. A Transcribe-nál leírják, hogy célszerű, ha a felhasználó a mikrofonhoz közel tartózkodik, mert a háttérzajokat csak így képes elkerülni. Azt is megtudjuk, hogyan alkalmazzuk a regionális dialektusok vagy műszaki nyelv átírásában segítő speciális szótárakat.

Az Amazon a felhasználói közösségek visszajelzései alapján folyamatosan frissíteni fogja az összes szolgáltatáskártyát. Modelleket fejlesztő ügyfeleinek pedig forrásokat kínál ahhoz, hogy hogyan készítsék el saját kártyáikat.

Egy olasz robot majdnem úgy farag márványszobrokat, mint Michelangelo

A Robotor olasz startup robotja majdnem olyan jól farag carrarai márványból szobrokat, mint reneszánsz-kori elődei. Legalábbis a cégalapító Giacomo Massari úgy gondolja, hogy a gép által készített munkák szinte annyira míves darabok, mintha ember alkotta volna őket.

„Szerintem, mondjuk kilencvenkilenc százalék. Viszont pont az emberi érintés az, ami miatt a különbség fennáll. A maradék egy százalék nagyon fontos” – jelentette ki Massari.

michelangelo.jpg

Egy lépéssel tovább is ment. A robottechnológia nem lopja el emberek munkáját, hanem javít rajtuk – állítja. Elég merész gondolat, ha figyelembe vesszük, hogy a szobrászat többezer éves fejlődés eredményeként jutott el a mai szintig, illetve a reneszánsz vagy az antik világ mestereinek örökérvényű műveiig.

Igaz, azt is tudjuk, hogy a gépi evolúció – elvileg legalábbis – sokkal gyorsabb, mint a természetes.

michelangelo0.jpg

Az IL nevű szobrászrobot cinkötvözetből készült, közel négy méter magas behemót. Éjjel-nappal, megállás nélkül képes faragni a márványt, fejlesztői szerint forradalmi technológia.

Az anyag ma már akár extrém körülmények között is megmunkálható, átalakítható, korábban elképzelhetetlennek tartott komplex alkotások hozhatók létre belőle – állítja a fejlesztőcég.

A Robotor szerint „a szobrászat új korszakába lépünk. Ez a művészet már nem törött kövekről, vésőkről és porról, hanem szkennelésről, pontfelhőkről és designról szól” – teszik hozzá.

Nem mindenki örül a szobrászrobotnak, sőt, általában a művészi tevékenységet végző más robotoknak, mesterséges intelligenciának sem. Egyes alkotók szerint ezek a gépek pont a kézművességet, az évezredes hagyományok átörökítésével kialakult szaktudást ölik ki például a szobrászatból. Valami nagyon fontos, lényegbevágó vész oda hagyományos folyamatok új technológiákkal történő modernizálásakor – érvelnek.

„Elfelejtjük, hogyan dolgozzunk a kezünkkel. Remélem, hogy azért valamennyi szakmai ismeret és tudás mindig megmarad, viszont ahogy megyünk előre az időben, egyre nehezebb lesz megőrizni” – nyilatkozta Lorenzo Calcinai, a firenzei katedrális szobrásza.

Mesterséges intelligencia a munkahelyeken

Sok dolgozó tart attól, hogy munkahelyét mesterséges intelligencia miatt veszítheti el. A félelem ugyan nem megalapozatlan, az utóbbi évek felmérései viszont pont az ellenkezőjét támasztják alá, azaz az MI inkább támogatja, semmint helyettesíti a humán munkaerőt.

2008 és 2018 között az MI és az általa mozgatott automatizáció miatt fenyegetettnek vélt több területen, például gyorséttermekben, fordítói és pénzügyi tanácsadó munkakörökben növekedett az alkalmazottak száma.

ai_use.jpg

Az MIT és a Boston Consulting Group friss felmérése alkalmazottak napi szintű munkával kapcsolatos MI-használatát vizsgálta. Kiderült belőle: a technológia személyeknek és szervezeteknek egyaránt sok előnyt kínál, a munkáltatóknak viszont meg kellene taníttatniuk dolgozóikkal, hogy ezt észre is vegyék.

Persze az sem feltétlenül baj, ha nem ismerik fel az MI szerepét mindennapjaikban. A sikeres technológiák a háttérben maradnak, ott működnek, manapság például nem foglalkozunk az elektromosság áldásaival, és ha az MI az új elektromosság, akkor azt is eleve adottnak vesszük.

Húsz iparág, több mint száz ország 1741 képviselőjét, valamint tizenhét vezető beosztású személyt kérdeztek az MI használatáról.

ai_use0.jpg

Az alkalmazottak 34 százaléka elmondta: mérsékelten használja. Amikor speciális MI-megoldásokról szólt ugyanez a kérdés, további 28 százalék válaszolta, hogy rendszeresen vagy időnként dolgozik mesterséges intelligenciával.

64 százalékuk szerint mérsékelt, jelentős és kimerítő értékeket kap az MI-től, tíz százalék viszont semmit. Akik értékeket kaptak, átlagosan 3,4-szer elégedettebbek a munkájukkal, mint akik nem.

Az MI-ben megbízók kétszer annyit használják, mint a kételkedők. Akiktől elvárás az MI-használat, háromszor gyakrabban használják, mint akiktől nem az, és 1,4-szer valószínűbb, hogy felfedeznek benne valamilyen értéket.

A személyes és a szervezeti szintű értékítélet egymásra rímel: ha valaki a munkahelye elmondása alapján mérsékelt, jelentős és kimerítő értékeket kap az MI-től, az egyéni szinten is így áll hozzá – legalábbis a 85 százalékuk.

A felmérés szerzői négy kategóriára bontották az MI-használókat.

79 százalékuknál kereskedelmi termékekről (Grammarly, Siri stb.) van szó, 55 százalékuk esetében üzleti termékek, például ügyfélszolgálati kapcsolatokat kezelő megoldások, radiológiai képalkotók stb. 43 százalékuk speciális feladatokra (például teherszállító repülőgépek terhelésének optimalizálására) kitalált, egyedire kialakított, 37 százalékuk pedig többféle feladatot elvégző (például árazó, keresletet előrejelző és a raktárt kezelő Amazon) algoritmusokat használ.

Hogyan készítsen MI képet a mi macskánkról?

A tipikus szövegből képet generáló mesterséges intelligenciák előállhatnak például egy macska, de nem a mi macskánk képével. Azért nem, mert a szöveges utasítást, a promptot nehéz olyan pontosan megadni, hogy a macskánkat a többi macskától megkülönböztető összes jegy benne legyen.

Nvidia- és tel-avivi kutatók változtatni akarnak ezen, és egyedi objektumokat egyedi stílusban megörökítő – egyediségüket megragadó –, szövegből képet generáló módszeren dolgoznak.

Módszerük alapján, gyakorlás közben egy ilyen (diffúzión alapuló) generátor zajos képet és szöveges leírást használ kiindulásként. Egy transzformer megtanulja a szöveg beágyazását, míg a diffúziós modell a beágyazást a zaj egymást követő lépésekben történő eltüntetésére is használja.

precizios_kepalkotas.jpg

Tehát a rendszer tiszta zajjal és szöveges leírással kezdi, majd a szöveg értelmében, iteratív módon távolítja el a zajt a kép létrehozásához. Az egyik modellváltozat (látens diffúziós modell a neve) úgy takarékoskodik a számításokkal, hogy a zajt a zajos kép helyett egy kicsi és ismert vektorról tünteti el.

Maga a rendszer szöveges szóbeágyazásokat táplál a képgenerátorba. A kapcsolódó képek halmazát reprezentáló és megtanult beágyazás azt váltja ki a generátorból, hogy a szavak jelentéstartalma mellett, ezeknek a képeknek a közös tulajdonságait is igyekszik leképezni.

A kutatók az említett látens diffúziós modellen alapuló generátorral dolgoztak, amelyet az előzetesen a netről összeszedett négyszázmillió szöveg-kép páron gyakoroltatták.

Három-öt képet tápláltak bele, mindegyiken más beállításban és stílusban volt látható ugyanaz az objektum. Megadták a képleírást is, egy hiányzó, S* karakterrel jelölt szóval. A leírásokban olyan mondatok szerepeltek, mint „S* festménye”, vagy „festmény S* stílusában.”

A transzformer megtanulta S* beágyazását, például: „S* szemcsés fotója az Angry Birdsben.” A szavakat és S*-t is beágyazta. A modell a beágyazás alapján képpel állt elő.

A kutatók az eredeti és a generált képek beágyazásait összehasonlítva értékelték modelljük outputját. A hasonlóságot 0 és 1 közötti skálán mérték, ahol az 1 két azonos inputot jelöl. A modell 0.78-at ért el. Ember által kitalált, maximum tizenkét szavas (köztük S* is) promptokból készült képek 0,6, maximum harminc szavas, hosszabb leírásokból generált képeknél 0,625 lett az eredmény.

Az új módszerrel előbb-utóbb eljutunk addig, hogy a mesterséges intelligencia ne úgy általában egy macskáról, hanem tényleg a mi cicánkról alkot majd képet.

Elfogynak az adatok

A big data korában eljuthatunk odáig, hogy a kínálat szintjén nem lesz annyi adat, mint amekkora a kereslet. A paradoxon oka egyszerű és logikus: egyre nehezebb kielégíteni az egyre „nagyobb étkű” gépitanulás-modellek szükségletét.

Az Epoch AI kutatói szerint a szöveges adatokkal már idén bajok lehetnek, még ebben az évben jelentkezhet a hiány. A vizuális adatokkal minimum egy évtizeden belül várható hasonló helyzet.

adatok.jpg

A kutatók a jövőbeli szükségleteket, a hozzáférést, a címkézetlen nyelvi és képi adatokat hasonlították össze. A nyelvi adatok kiértékelésénél a Wikipediára, az Arxivra (elektronikus elő- és utónyomatok nyílt hozzáférésű tárháza), digitális könyvekből álló könyvtárakra összpontosítottak. Mivel ezeket az anyagokat szerkesztői és minőségkontrollnak is alávetik, különleges értéket jelentenek nagy nyelvmodellek gyakoroltatásánál.

Vizuális adatokként YouTube, Instagram, Snapchat, WhatsApp és Facebook álló- és mozgóképeket használtak.

Arra a következtetésre jutottak, hogy a nagy modellek trenírozásához szükséges adatsorok mérete sokkal gyorsabban fog növekedni, mint az adatellátás.

adatok1.jpg

A csúcsminőségű nyelvi adatok mennyisége évi négy-öt százalékkal növekszik. A szöveges adatsoroknak viszont minden tizenegy-huszonegy havonta meg kell duplázódniuk, azaz az egyensúly nehezen tartható fenn, és a hiány 2023 és 2027 közöttre prognosztizálható. Az adatminőség csökkentésével néhány év „menedék” várható, és így realisztikusabban a 2030 és 2040 közötti évtizedre várható a hiány.

A vizuális adatellátás évi nyolc százalékkal növekszik, míg az adatsorok képmennyisége két és fél-négyévente duplázódik. Tartva ezt a növekedési ütemet, valamikor 2030 és 2060 között lesz tapasztalható a hiány.

Az Epoch AI korábban már kiszámolta a gyakorló adatsorok méretbeli és történelmi növekedést. A legdinamikusabb növekedést a legnagyobb csúcsminőségű szöveges adatsorokon, a legalacsonyabbat a vizuális sorokon figyelték meg.

A jövőbeli számok, statisztikák viszont nemcsak természetüknél fogva, hanem más tényezők miatt is pontatlanok lehetnek – javulhat a modellek adathatékonysága, a szintetikus adatok jobb minőségűvé válhatnak, új adatforrások tűnhetnek fel.

Ha például tényleg elterjed at önvezető autó, hatalmas mennyiségű vizuális anyag generálódik.

Nem javítják az ügyfélszolgálatot a vidám chatbotok

Képzeljük el, hogy egy chatbottal közöljük: nem kaptuk meg a csomagot, amit az őt foglalkoztató cég küldött. Mire a chatbot „el vagyok ragadtatva, hogy segíthetek”, vagy „boldog vagyok, hogy megoldhatom a problémát.” Aztán jön egy üzenet az interakcióra vonatkozó kérdéssel: mennyire voltunk elégedettek vele, ötös, tízes skálán hányasra értékeljük?

2025-re a vállalatok 95 százaléka fog MI-alapú chatbotot alkalmazni, és ugyan a zömük nem lesz intelligens, viszont mindet lehet érzelemkifejezésre programozni. Kérdés, hogy ez mennyire lesz jó a cégeknek.

chatbot_3.jpg

Régóta elfogadott tény, hogy az ügyfélszolgálaton dolgozó emberek javítják az interakciót, ha pozitív érzelmeket fejeznek ki. A Georgia Technológiai Intézet kutatói kíváncsiak voltak, hogy a beszélgető botok esetében is ugyanez a helyzet, vagy sem.

Kiderült, hogy csak akkor, ha elvárjuk tőlük a pozitív megnyilvánulásokat, ha azok természetesek, különben nem. Minden attól függ, hogy az ügyfél mire számít a vele kommunikáló mesterséges intelligenciától.

chatbot0_1.jpg

A kutatók három felmérést végeztek, felmérésenként változtak a résztvevők és a forgatókönyvek, a chatbot majdnem mindig pozitív érzelmekre utaló jelzőt használt: izgatott, elragadtatott, boldog, örömteli. A jelzőt követő felkiáltójelek nyomatékosították az érzéseit.

Az elsőben azt tanulmányozták, hogy az ügyfél pozitívabban áll-e hozzá a pozitív érzésekhez, ha tudja beszélgetőpartneréről: bot vagy személy. Velük (155-en voltak) játszották el négy forgatókönyv alapján az elveszett csomag történetet: emberi ügyfélszolgálatos semleges, illetve pozitív érzésekkel, chatbot semleges és pozitív érzésekkel. Utána a szolgáltatás minőségéről, megelégedettségükről kérdezték a résztvevőket. Kiderült, hogy humán ügyfélszolgálatosnál előnyös volt a pozitív hangulat kifejezése, botok esetében viszont nem osztott, nem szorzott.

A másodikban azt vizsgálták, hogy az ügyfél személyes elvárásai meghatározzák-e a bot felé mutatott reakcióit. A 88 résztvevő véletlenszerűen pozitív és negatív érzéseket kifejező botokkal csevegett, majd megkérdezték őket: közösség- vagy tranzakció orientáltak, amit pontozniuk kellett. Előző esetben inkább kedvelték az „érzelmes” botokat, utóbbiban viszont a kommunikáció a vártnál is rosszabbra sikerült.

A harmadikban résztvevő, „érzelmes” és „nem érzelmes” botokhoz random kiválasztott 177 személy esetében azt vizsgálták, hogy a bot pozitív érzelmei miért befolyásolják az ügyfelet, miért kisebb a hatásuk a vártnál. A válasz egyszerű: mivel az ügyfél semmiféle érzelmet nem vár el egy géptől, negatívan reagálhat, ha mégis ilyennel szembesül.

Az érzelemkifejező botokkal való beszélgetés azért is komoly kihívás a fejlesztőknek, mert a gép nem ismerheti előítéleteinket, és hogy mit várunk az interakciótól.

Rákkezelés virtuális valósággal

A virtuális valóság (Virtual Reality – VR) ugyan nem vált olyan mindennapos technológiává, mint lényegében folyamatosan prognosztizálják, viszont túl az elenyésző átlagfogyasztói felhasználáson (nem rohangászunk sisakban, headsettel az utcán), számos területen hasznosulásra kerül, oktatási és kutatótevékenységekben alkalmazzák.

Legújabban például olyan VR-szoftver fejlesztettek, amely a rákellenes küzdelem fontos eszközévé válhat.

Az angliai Cambridge Egyetem videojáték-fejlesztői és rákkutatói ugyanis összeálltak, hogy ráksejtek táblázatok formájában tárolt adatait nagyon részletes virtuálisvalóság-képekké alakítsák át. A vizualizálással az a céljuk, hogy orvosok jobban megértsék a beteg állapotát, és átlássák, hogyan kezeljék a betegséget.

vr_rakellen.jpg

A felsőoktatási intézmény IMAXT Laboratóriumában az agyat igencsak megtornásztató számokat és adatokat alakítottak át 3D-s képekké tumorokról. A képek alapján kutatók jóval könnyebben megkülönböztetik egymástól a ráksejteket. Ez azért is lehetséges, mert mindegyik sejttípusnak más a színe és a formája.

Headsettel – sisakkal – a fején, a szakember a beteg tumorját belülről látja, „benne van”, és így egyszerűbb megítélnie, mennyire súlyos az illető állapota, mennyire előrehaladott a betegség. Az eszköznek pontosan ez a célja, hogy az orvos jobban lássa páciensét, és ennek megfelelően kezelje a rákot.

A fejlesztést az Egyesült Királyság és az Egyesült Államok nemzeti rákkutatási központjai által támogatott Cancer Grand Challenges globális platform finanszírozta. A platform ezirányú munkájában britek és amerikaiak mellett kanadai, ír és svájci tudósok is részt vettek.

„Sokkal egyszerűbb észrevenni a különbségeket, megfigyelni jellegzetességeket, sajátosságokat, ha valamit belülről, és nem táblázatokat vagy fénylépeket nézve vizsgálunk. Láthatjuk, hogy egy bizonyos típusú sejt hogyan lehet véredény vagy más sejt mellett, ami nagyon fontos lehet a beteg jövőjére vonatkozóan” – nyilatkozta Own Harris, az IMAXT Laboratórium vezető videojáték-tervezője.

Greg Hannon, a Cambridge Egyetem Rákkutató Intézetének igazgatója szerint a VR-eszközzel jobban előrejelezhető a betegség kimenetele, mint más technikákkal.

Biztonsági kockázatot okozhatnak a kódgeneráló mesterséges intelligenciák

A Stanford Egyetem friss tanulmánya szerint a kódgeneráló mesterségesintelligencia-rendszereket használó szoftvermérnökök nagyobb valószínűséggel okoznak biztonsági problémákat az általuk fejlesztett alkalmazásokban, mintha MI nélkül dolgoznának. A potenciális buktatókra pont akkor hívták fel a figyelmet, amikor egyes gyártók, például a GitHub gőzerővel kezdte marketingelni ezeket a rendszereket.

Egyelőre nem helyettesíthetik a humán fejlesztőket – figyelmeztet a tanulmány. Az azokat szakterületükön kívüli dolgokra, illetve a munkájuk felgyorsítására használó mérnököknek mindig alaposan ellenőrizniük kellene az outputot, és hogy az MI kódgenerálót milyen környezetben használták.

codec.jpg

A tanulmány külön figyelmet szentelt az OpenAI Codexének. Negyvenhét fejlesztőt kértek fel a használatára, Pythonban, JavaScriptben és C-ben kellett megoldaniuk biztonsági problémákat. Kiderült, hogy az MI-t nem használó kontrollcsoporttal összehasonlítva, a Codex-szel dolgozók gyakran írtak pontatlan vagy nem biztonságos megoldásokat, ráadásul biztosabbak voltak, hogy nem biztonságos javaslatuk biztonságosabb volt a kontrollcsoport egyébként biztonságos opciójánál.

Az eredményekkel a stanfordi kutatók nem akartak pálcát törni a Codex és a többi MI-s kódgeneráló felett, hanem a gyenge pontjaikra akartak figyelmeztetni. Ezek a technológiák egyébként biztonságosak a nagy kockázattal nem járó munkákhoz, plusz finomhangolhatók is – emelték ki.

codec0.jpg

A GitHubnak és más eladóknak azt tanácsolják, hogy találjanak ki a promptokat jobban pontosító megoldásokat, a titkosítási könyvtárakkal dolgozó mérnökök pedig bizonyosodjanak meg alapbeállításaik biztonságáról, ami azért fontos, mert a kódgeneráló rendszerek általában ragaszkodnak ezekhez a beállításokhoz.

A tanulmány szerzői elismerek, hogy az MI segítségével történő kódgenerálás valóban érdekes, hasznos, és sokakat hoz izgalomba, ugyanakkor nem árt, ha mindenki tisztában van a hiányosságokkal. Sok munkára van még szükség a problémák feltárásához, és az azokat megoldó technikák kidolgozásához.

Kezdő fejlesztők oktatásához viszont nem ajánlják ezeket az eszközöket, mert at MI egyelőre nem helyettesítheti a masszív kódolási gyakorlatot.

Robotporszívók által rögzített személyes képek szivárogtak ki online

Robotporszívónk nemcsak figyel minket, hanem időnként képeket rögzít rólunk, és a személyes pillanatainkat megörökített fotók akár az online nyilvánosságba is eljuthatnak. Legalábbis az iRobot hihetetlenül népszerű, legendás Roomba gépének J7 (speciális) változatával ez történt.

2020-ban venezuelai alkalmi dolgozók online beszélgető fórumokon tettek közzé földközeli kameraszögből felvett, a rajtuk látható személyek intim pillanatait (az egyik hölgyet mellékhelyiségben) megörökítő fényképeket.

roomba_1.jpg

A képek felvétel után az audió és vizuális anyagokat világszerte felcímkéző személyeket alkalmazó Scale AI startuphoz kerültek. A címkéket és az anyagokat mesterséges intelligenciák gyakoroltatására használják. A szivárogtatók is ezt az alkalmi munkát végezték, és közben megszegték előzetesen aláírt titoktartási kötelezettségüket.

Ilyen anyagokat az internethez kapcsolódó berendezések, háztartási eszközök egyébként rendszeresen rögzítenek, majd a számítási felhőbe továbbítanak. Az adatrögzítés célja elvileg az, hogy a fejlesztők a továbbiakban javíthassanak a rendszereken. Az ottani tárolás és hozzáférés viszont nagyon szigorúan kontrollált.

roomba0_1.jpg

Az Amazon által 1,7 milliárd dollárért pont most „felvásárlásban lévő” iRobot a világ elsőszámú robot-porszívó értékesítője elismerte, hogy a 2020-os képeket Roomba készítette.

Az iRobot elmondta, hogy a szóban forgó porszívók hardverét és szoftverét is módosították, a gépeket fizetett gyűjtőknek és alkalmazottaknak adták, nem kerültek kereskedelmi forgalomba. A porszívó jelezte, ha felvétel volt folyamatban, a tulajdonosok pedig Roomba további tökéletesítésére elküldték az anyagokat a gyártóhoz. Természetesen csak azokat, amelyeket el akartak küldeni.

Tehát a fejlesztő azt gondolja, hogy a nyilvánosságra került anyagok alanyai hozzájárultak Roomba általi megfigyelésükhöz. A beleegyezési nyilatkozatot, és a fizetett gyűjtők, alkalmazottak nevét viszont nem árulta el.

Sajnos elképzelhető, hogy a szóban forgó képek csak a jéghegy csúcsát jelentik, mert az internethez kapcsolódó háztartási berendezéseink rengeteg személyes adatot gyűjtenek rólunk.

Jönnek a multifunkcionális ideghálók?

A többszáz különböző feladatot általánosító, kezelő algoritmusoknak csak a kezdeti szakaszában vagyunk, gyerekcipőben járnak még, 2022 több fejlesztése viszont bizonyította: a mélytanulásban (deep learning) megvan a potenciál hozzájuk. Ha felgyorsulnak és eredményesek lesznek az ezirányú fejlesztések, közelebb kerülünk az általános mesterséges intelligenciához.

A több feladatra (multi-task) használható modellek lehetőségei – a feladatok száma – drámai mértékben bővültek. Kutatók a mesterséges ideghálók által elsajátítható adottságok kereteit feszegették, és a fejlesztések 2023-ban nyilván folytatódnak.

gato_1_1.jpg

A nagy nyelvi modellek emergens módon kialakuló képességei jelentették az inspirációt. Másrészt, ezek, a szövegeken és képeken gyakoroltatott modellek ma már meg tudják találni a két különböző adattípus közötti kapcsolatokat. Harmadrészt, ahhoz, hogy ugyanaz a modell előbb verset, majd számítógépes programot írjon, nem kell áthangolni az architektúrát.

A Google PaLM modellje demonstrálta, hogy nyelvmegértéssel és szöveggenerálással kapcsolatos, többszáz feladatot néhány lépés alatt képes megoldani. Egyes esetekben az ezekre a célokra finomhangolt modelleket és az embert is felülmúlta.

gato0_1.jpg

A DeepMind (spanyolul macskát jelentő) Gato transzformere hatszáznál több változatos feladat kezelését tanulta meg: Atari játékok használatát, építőkockák egymásra rakását, robotkar alkalmazását, képaláírások generálását stb. Egyelőre nem annyira jó bennük, mint a külön-külön egyikre, másikra trenírozott modellek, viszont már maga a tény is figyelemre méltó.

A rendszert felügyelet melletti tanulással gyakoroltatták, szimultán használt hozzájuk sok és nagyon különböző adatsort. Ezeket a képi, szöveges, cselekvés stb. adatsorokat megerősítéses tanuláson alapuló ágensek generálták.

A Google kutatói a robotikára is próbálják alkalmazni az új megközelítést. Az RT-1 transzformer lehetővé teszi, hogy egy robot hétszáznál több feladattal boldoguljon. A cselekvésekből és a képekből tokeneket generáló rendszer másfél év alatt összegyűjtött adatsoron tanult. Az adatsorban robotflottákról szóló 130 ezer epizód található. Korábbi technológiákkal összevetve, feltűnően jól teljesített.

süti beállítások módosítása