Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Egy olasz robot majdnem úgy farag márványszobrokat, mint Michelangelo

2023. január 12. - ferenck

A Robotor olasz startup robotja majdnem olyan jól farag carrarai márványból szobrokat, mint reneszánsz-kori elődei. Legalábbis a cégalapító Giacomo Massari úgy gondolja, hogy a gép által készített munkák szinte annyira míves darabok, mintha ember alkotta volna őket.

„Szerintem, mondjuk kilencvenkilenc százalék. Viszont pont az emberi érintés az, ami miatt a különbség fennáll. A maradék egy százalék nagyon fontos” – jelentette ki Massari.

michelangelo.jpg

Egy lépéssel tovább is ment. A robottechnológia nem lopja el emberek munkáját, hanem javít rajtuk – állítja. Elég merész gondolat, ha figyelembe vesszük, hogy a szobrászat többezer éves fejlődés eredményeként jutott el a mai szintig, illetve a reneszánsz vagy az antik világ mestereinek örökérvényű műveiig.

Igaz, azt is tudjuk, hogy a gépi evolúció – elvileg legalábbis – sokkal gyorsabb, mint a természetes.

michelangelo0.jpg

Az IL nevű szobrászrobot cinkötvözetből készült, közel négy méter magas behemót. Éjjel-nappal, megállás nélkül képes faragni a márványt, fejlesztői szerint forradalmi technológia.

Az anyag ma már akár extrém körülmények között is megmunkálható, átalakítható, korábban elképzelhetetlennek tartott komplex alkotások hozhatók létre belőle – állítja a fejlesztőcég.

A Robotor szerint „a szobrászat új korszakába lépünk. Ez a művészet már nem törött kövekről, vésőkről és porról, hanem szkennelésről, pontfelhőkről és designról szól” – teszik hozzá.

Nem mindenki örül a szobrászrobotnak, sőt, általában a művészi tevékenységet végző más robotoknak, mesterséges intelligenciának sem. Egyes alkotók szerint ezek a gépek pont a kézművességet, az évezredes hagyományok átörökítésével kialakult szaktudást ölik ki például a szobrászatból. Valami nagyon fontos, lényegbevágó vész oda hagyományos folyamatok új technológiákkal történő modernizálásakor – érvelnek.

„Elfelejtjük, hogyan dolgozzunk a kezünkkel. Remélem, hogy azért valamennyi szakmai ismeret és tudás mindig megmarad, viszont ahogy megyünk előre az időben, egyre nehezebb lesz megőrizni” – nyilatkozta Lorenzo Calcinai, a firenzei katedrális szobrásza.

Mesterséges intelligencia a munkahelyeken

Sok dolgozó tart attól, hogy munkahelyét mesterséges intelligencia miatt veszítheti el. A félelem ugyan nem megalapozatlan, az utóbbi évek felmérései viszont pont az ellenkezőjét támasztják alá, azaz az MI inkább támogatja, semmint helyettesíti a humán munkaerőt.

2008 és 2018 között az MI és az általa mozgatott automatizáció miatt fenyegetettnek vélt több területen, például gyorséttermekben, fordítói és pénzügyi tanácsadó munkakörökben növekedett az alkalmazottak száma.

ai_use.jpg

Az MIT és a Boston Consulting Group friss felmérése alkalmazottak napi szintű munkával kapcsolatos MI-használatát vizsgálta. Kiderült belőle: a technológia személyeknek és szervezeteknek egyaránt sok előnyt kínál, a munkáltatóknak viszont meg kellene taníttatniuk dolgozóikkal, hogy ezt észre is vegyék.

Persze az sem feltétlenül baj, ha nem ismerik fel az MI szerepét mindennapjaikban. A sikeres technológiák a háttérben maradnak, ott működnek, manapság például nem foglalkozunk az elektromosság áldásaival, és ha az MI az új elektromosság, akkor azt is eleve adottnak vesszük.

Húsz iparág, több mint száz ország 1741 képviselőjét, valamint tizenhét vezető beosztású személyt kérdeztek az MI használatáról.

ai_use0.jpg

Az alkalmazottak 34 százaléka elmondta: mérsékelten használja. Amikor speciális MI-megoldásokról szólt ugyanez a kérdés, további 28 százalék válaszolta, hogy rendszeresen vagy időnként dolgozik mesterséges intelligenciával.

64 százalékuk szerint mérsékelt, jelentős és kimerítő értékeket kap az MI-től, tíz százalék viszont semmit. Akik értékeket kaptak, átlagosan 3,4-szer elégedettebbek a munkájukkal, mint akik nem.

Az MI-ben megbízók kétszer annyit használják, mint a kételkedők. Akiktől elvárás az MI-használat, háromszor gyakrabban használják, mint akiktől nem az, és 1,4-szer valószínűbb, hogy felfedeznek benne valamilyen értéket.

A személyes és a szervezeti szintű értékítélet egymásra rímel: ha valaki a munkahelye elmondása alapján mérsékelt, jelentős és kimerítő értékeket kap az MI-től, az egyéni szinten is így áll hozzá – legalábbis a 85 százalékuk.

A felmérés szerzői négy kategóriára bontották az MI-használókat.

79 százalékuknál kereskedelmi termékekről (Grammarly, Siri stb.) van szó, 55 százalékuk esetében üzleti termékek, például ügyfélszolgálati kapcsolatokat kezelő megoldások, radiológiai képalkotók stb. 43 százalékuk speciális feladatokra (például teherszállító repülőgépek terhelésének optimalizálására) kitalált, egyedire kialakított, 37 százalékuk pedig többféle feladatot elvégző (például árazó, keresletet előrejelző és a raktárt kezelő Amazon) algoritmusokat használ.

Hogyan készítsen MI képet a mi macskánkról?

A tipikus szövegből képet generáló mesterséges intelligenciák előállhatnak például egy macska, de nem a mi macskánk képével. Azért nem, mert a szöveges utasítást, a promptot nehéz olyan pontosan megadni, hogy a macskánkat a többi macskától megkülönböztető összes jegy benne legyen.

Nvidia- és tel-avivi kutatók változtatni akarnak ezen, és egyedi objektumokat egyedi stílusban megörökítő – egyediségüket megragadó –, szövegből képet generáló módszeren dolgoznak.

Módszerük alapján, gyakorlás közben egy ilyen (diffúzión alapuló) generátor zajos képet és szöveges leírást használ kiindulásként. Egy transzformer megtanulja a szöveg beágyazását, míg a diffúziós modell a beágyazást a zaj egymást követő lépésekben történő eltüntetésére is használja.

precizios_kepalkotas.jpg

Tehát a rendszer tiszta zajjal és szöveges leírással kezdi, majd a szöveg értelmében, iteratív módon távolítja el a zajt a kép létrehozásához. Az egyik modellváltozat (látens diffúziós modell a neve) úgy takarékoskodik a számításokkal, hogy a zajt a zajos kép helyett egy kicsi és ismert vektorról tünteti el.

Maga a rendszer szöveges szóbeágyazásokat táplál a képgenerátorba. A kapcsolódó képek halmazát reprezentáló és megtanult beágyazás azt váltja ki a generátorból, hogy a szavak jelentéstartalma mellett, ezeknek a képeknek a közös tulajdonságait is igyekszik leképezni.

A kutatók az említett látens diffúziós modellen alapuló generátorral dolgoztak, amelyet az előzetesen a netről összeszedett négyszázmillió szöveg-kép páron gyakoroltatták.

Három-öt képet tápláltak bele, mindegyiken más beállításban és stílusban volt látható ugyanaz az objektum. Megadták a képleírást is, egy hiányzó, S* karakterrel jelölt szóval. A leírásokban olyan mondatok szerepeltek, mint „S* festménye”, vagy „festmény S* stílusában.”

A transzformer megtanulta S* beágyazását, például: „S* szemcsés fotója az Angry Birdsben.” A szavakat és S*-t is beágyazta. A modell a beágyazás alapján képpel állt elő.

A kutatók az eredeti és a generált képek beágyazásait összehasonlítva értékelték modelljük outputját. A hasonlóságot 0 és 1 közötti skálán mérték, ahol az 1 két azonos inputot jelöl. A modell 0.78-at ért el. Ember által kitalált, maximum tizenkét szavas (köztük S* is) promptokból készült képek 0,6, maximum harminc szavas, hosszabb leírásokból generált képeknél 0,625 lett az eredmény.

Az új módszerrel előbb-utóbb eljutunk addig, hogy a mesterséges intelligencia ne úgy általában egy macskáról, hanem tényleg a mi cicánkról alkot majd képet.

Elfogynak az adatok

A big data korában eljuthatunk odáig, hogy a kínálat szintjén nem lesz annyi adat, mint amekkora a kereslet. A paradoxon oka egyszerű és logikus: egyre nehezebb kielégíteni az egyre „nagyobb étkű” gépitanulás-modellek szükségletét.

Az Epoch AI kutatói szerint a szöveges adatokkal már idén bajok lehetnek, még ebben az évben jelentkezhet a hiány. A vizuális adatokkal minimum egy évtizeden belül várható hasonló helyzet.

adatok.jpg

A kutatók a jövőbeli szükségleteket, a hozzáférést, a címkézetlen nyelvi és képi adatokat hasonlították össze. A nyelvi adatok kiértékelésénél a Wikipediára, az Arxivra (elektronikus elő- és utónyomatok nyílt hozzáférésű tárháza), digitális könyvekből álló könyvtárakra összpontosítottak. Mivel ezeket az anyagokat szerkesztői és minőségkontrollnak is alávetik, különleges értéket jelentenek nagy nyelvmodellek gyakoroltatásánál.

Vizuális adatokként YouTube, Instagram, Snapchat, WhatsApp és Facebook álló- és mozgóképeket használtak.

Arra a következtetésre jutottak, hogy a nagy modellek trenírozásához szükséges adatsorok mérete sokkal gyorsabban fog növekedni, mint az adatellátás.

adatok1.jpg

A csúcsminőségű nyelvi adatok mennyisége évi négy-öt százalékkal növekszik. A szöveges adatsoroknak viszont minden tizenegy-huszonegy havonta meg kell duplázódniuk, azaz az egyensúly nehezen tartható fenn, és a hiány 2023 és 2027 közöttre prognosztizálható. Az adatminőség csökkentésével néhány év „menedék” várható, és így realisztikusabban a 2030 és 2040 közötti évtizedre várható a hiány.

A vizuális adatellátás évi nyolc százalékkal növekszik, míg az adatsorok képmennyisége két és fél-négyévente duplázódik. Tartva ezt a növekedési ütemet, valamikor 2030 és 2060 között lesz tapasztalható a hiány.

Az Epoch AI korábban már kiszámolta a gyakorló adatsorok méretbeli és történelmi növekedést. A legdinamikusabb növekedést a legnagyobb csúcsminőségű szöveges adatsorokon, a legalacsonyabbat a vizuális sorokon figyelték meg.

A jövőbeli számok, statisztikák viszont nemcsak természetüknél fogva, hanem más tényezők miatt is pontatlanok lehetnek – javulhat a modellek adathatékonysága, a szintetikus adatok jobb minőségűvé válhatnak, új adatforrások tűnhetnek fel.

Ha például tényleg elterjed at önvezető autó, hatalmas mennyiségű vizuális anyag generálódik.

Nem javítják az ügyfélszolgálatot a vidám chatbotok

Képzeljük el, hogy egy chatbottal közöljük: nem kaptuk meg a csomagot, amit az őt foglalkoztató cég küldött. Mire a chatbot „el vagyok ragadtatva, hogy segíthetek”, vagy „boldog vagyok, hogy megoldhatom a problémát.” Aztán jön egy üzenet az interakcióra vonatkozó kérdéssel: mennyire voltunk elégedettek vele, ötös, tízes skálán hányasra értékeljük?

2025-re a vállalatok 95 százaléka fog MI-alapú chatbotot alkalmazni, és ugyan a zömük nem lesz intelligens, viszont mindet lehet érzelemkifejezésre programozni. Kérdés, hogy ez mennyire lesz jó a cégeknek.

chatbot_3.jpg

Régóta elfogadott tény, hogy az ügyfélszolgálaton dolgozó emberek javítják az interakciót, ha pozitív érzelmeket fejeznek ki. A Georgia Technológiai Intézet kutatói kíváncsiak voltak, hogy a beszélgető botok esetében is ugyanez a helyzet, vagy sem.

Kiderült, hogy csak akkor, ha elvárjuk tőlük a pozitív megnyilvánulásokat, ha azok természetesek, különben nem. Minden attól függ, hogy az ügyfél mire számít a vele kommunikáló mesterséges intelligenciától.

chatbot0_1.jpg

A kutatók három felmérést végeztek, felmérésenként változtak a résztvevők és a forgatókönyvek, a chatbot majdnem mindig pozitív érzelmekre utaló jelzőt használt: izgatott, elragadtatott, boldog, örömteli. A jelzőt követő felkiáltójelek nyomatékosították az érzéseit.

Az elsőben azt tanulmányozták, hogy az ügyfél pozitívabban áll-e hozzá a pozitív érzésekhez, ha tudja beszélgetőpartneréről: bot vagy személy. Velük (155-en voltak) játszották el négy forgatókönyv alapján az elveszett csomag történetet: emberi ügyfélszolgálatos semleges, illetve pozitív érzésekkel, chatbot semleges és pozitív érzésekkel. Utána a szolgáltatás minőségéről, megelégedettségükről kérdezték a résztvevőket. Kiderült, hogy humán ügyfélszolgálatosnál előnyös volt a pozitív hangulat kifejezése, botok esetében viszont nem osztott, nem szorzott.

A másodikban azt vizsgálták, hogy az ügyfél személyes elvárásai meghatározzák-e a bot felé mutatott reakcióit. A 88 résztvevő véletlenszerűen pozitív és negatív érzéseket kifejező botokkal csevegett, majd megkérdezték őket: közösség- vagy tranzakció orientáltak, amit pontozniuk kellett. Előző esetben inkább kedvelték az „érzelmes” botokat, utóbbiban viszont a kommunikáció a vártnál is rosszabbra sikerült.

A harmadikban résztvevő, „érzelmes” és „nem érzelmes” botokhoz random kiválasztott 177 személy esetében azt vizsgálták, hogy a bot pozitív érzelmei miért befolyásolják az ügyfelet, miért kisebb a hatásuk a vártnál. A válasz egyszerű: mivel az ügyfél semmiféle érzelmet nem vár el egy géptől, negatívan reagálhat, ha mégis ilyennel szembesül.

Az érzelemkifejező botokkal való beszélgetés azért is komoly kihívás a fejlesztőknek, mert a gép nem ismerheti előítéleteinket, és hogy mit várunk az interakciótól.

Rákkezelés virtuális valósággal

A virtuális valóság (Virtual Reality – VR) ugyan nem vált olyan mindennapos technológiává, mint lényegében folyamatosan prognosztizálják, viszont túl az elenyésző átlagfogyasztói felhasználáson (nem rohangászunk sisakban, headsettel az utcán), számos területen hasznosulásra kerül, oktatási és kutatótevékenységekben alkalmazzák.

Legújabban például olyan VR-szoftver fejlesztettek, amely a rákellenes küzdelem fontos eszközévé válhat.

Az angliai Cambridge Egyetem videojáték-fejlesztői és rákkutatói ugyanis összeálltak, hogy ráksejtek táblázatok formájában tárolt adatait nagyon részletes virtuálisvalóság-képekké alakítsák át. A vizualizálással az a céljuk, hogy orvosok jobban megértsék a beteg állapotát, és átlássák, hogyan kezeljék a betegséget.

vr_rakellen.jpg

A felsőoktatási intézmény IMAXT Laboratóriumában az agyat igencsak megtornásztató számokat és adatokat alakítottak át 3D-s képekké tumorokról. A képek alapján kutatók jóval könnyebben megkülönböztetik egymástól a ráksejteket. Ez azért is lehetséges, mert mindegyik sejttípusnak más a színe és a formája.

Headsettel – sisakkal – a fején, a szakember a beteg tumorját belülről látja, „benne van”, és így egyszerűbb megítélnie, mennyire súlyos az illető állapota, mennyire előrehaladott a betegség. Az eszköznek pontosan ez a célja, hogy az orvos jobban lássa páciensét, és ennek megfelelően kezelje a rákot.

A fejlesztést az Egyesült Királyság és az Egyesült Államok nemzeti rákkutatási központjai által támogatott Cancer Grand Challenges globális platform finanszírozta. A platform ezirányú munkájában britek és amerikaiak mellett kanadai, ír és svájci tudósok is részt vettek.

„Sokkal egyszerűbb észrevenni a különbségeket, megfigyelni jellegzetességeket, sajátosságokat, ha valamit belülről, és nem táblázatokat vagy fénylépeket nézve vizsgálunk. Láthatjuk, hogy egy bizonyos típusú sejt hogyan lehet véredény vagy más sejt mellett, ami nagyon fontos lehet a beteg jövőjére vonatkozóan” – nyilatkozta Own Harris, az IMAXT Laboratórium vezető videojáték-tervezője.

Greg Hannon, a Cambridge Egyetem Rákkutató Intézetének igazgatója szerint a VR-eszközzel jobban előrejelezhető a betegség kimenetele, mint más technikákkal.

Biztonsági kockázatot okozhatnak a kódgeneráló mesterséges intelligenciák

A Stanford Egyetem friss tanulmánya szerint a kódgeneráló mesterségesintelligencia-rendszereket használó szoftvermérnökök nagyobb valószínűséggel okoznak biztonsági problémákat az általuk fejlesztett alkalmazásokban, mintha MI nélkül dolgoznának. A potenciális buktatókra pont akkor hívták fel a figyelmet, amikor egyes gyártók, például a GitHub gőzerővel kezdte marketingelni ezeket a rendszereket.

Egyelőre nem helyettesíthetik a humán fejlesztőket – figyelmeztet a tanulmány. Az azokat szakterületükön kívüli dolgokra, illetve a munkájuk felgyorsítására használó mérnököknek mindig alaposan ellenőrizniük kellene az outputot, és hogy az MI kódgenerálót milyen környezetben használták.

codec.jpg

A tanulmány külön figyelmet szentelt az OpenAI Codexének. Negyvenhét fejlesztőt kértek fel a használatára, Pythonban, JavaScriptben és C-ben kellett megoldaniuk biztonsági problémákat. Kiderült, hogy az MI-t nem használó kontrollcsoporttal összehasonlítva, a Codex-szel dolgozók gyakran írtak pontatlan vagy nem biztonságos megoldásokat, ráadásul biztosabbak voltak, hogy nem biztonságos javaslatuk biztonságosabb volt a kontrollcsoport egyébként biztonságos opciójánál.

Az eredményekkel a stanfordi kutatók nem akartak pálcát törni a Codex és a többi MI-s kódgeneráló felett, hanem a gyenge pontjaikra akartak figyelmeztetni. Ezek a technológiák egyébként biztonságosak a nagy kockázattal nem járó munkákhoz, plusz finomhangolhatók is – emelték ki.

codec0.jpg

A GitHubnak és más eladóknak azt tanácsolják, hogy találjanak ki a promptokat jobban pontosító megoldásokat, a titkosítási könyvtárakkal dolgozó mérnökök pedig bizonyosodjanak meg alapbeállításaik biztonságáról, ami azért fontos, mert a kódgeneráló rendszerek általában ragaszkodnak ezekhez a beállításokhoz.

A tanulmány szerzői elismerek, hogy az MI segítségével történő kódgenerálás valóban érdekes, hasznos, és sokakat hoz izgalomba, ugyanakkor nem árt, ha mindenki tisztában van a hiányosságokkal. Sok munkára van még szükség a problémák feltárásához, és az azokat megoldó technikák kidolgozásához.

Kezdő fejlesztők oktatásához viszont nem ajánlják ezeket az eszközöket, mert at MI egyelőre nem helyettesítheti a masszív kódolási gyakorlatot.

Robotporszívók által rögzített személyes képek szivárogtak ki online

Robotporszívónk nemcsak figyel minket, hanem időnként képeket rögzít rólunk, és a személyes pillanatainkat megörökített fotók akár az online nyilvánosságba is eljuthatnak. Legalábbis az iRobot hihetetlenül népszerű, legendás Roomba gépének J7 (speciális) változatával ez történt.

2020-ban venezuelai alkalmi dolgozók online beszélgető fórumokon tettek közzé földközeli kameraszögből felvett, a rajtuk látható személyek intim pillanatait (az egyik hölgyet mellékhelyiségben) megörökítő fényképeket.

roomba_1.jpg

A képek felvétel után az audió és vizuális anyagokat világszerte felcímkéző személyeket alkalmazó Scale AI startuphoz kerültek. A címkéket és az anyagokat mesterséges intelligenciák gyakoroltatására használják. A szivárogtatók is ezt az alkalmi munkát végezték, és közben megszegték előzetesen aláírt titoktartási kötelezettségüket.

Ilyen anyagokat az internethez kapcsolódó berendezések, háztartási eszközök egyébként rendszeresen rögzítenek, majd a számítási felhőbe továbbítanak. Az adatrögzítés célja elvileg az, hogy a fejlesztők a továbbiakban javíthassanak a rendszereken. Az ottani tárolás és hozzáférés viszont nagyon szigorúan kontrollált.

roomba0_1.jpg

Az Amazon által 1,7 milliárd dollárért pont most „felvásárlásban lévő” iRobot a világ elsőszámú robot-porszívó értékesítője elismerte, hogy a 2020-os képeket Roomba készítette.

Az iRobot elmondta, hogy a szóban forgó porszívók hardverét és szoftverét is módosították, a gépeket fizetett gyűjtőknek és alkalmazottaknak adták, nem kerültek kereskedelmi forgalomba. A porszívó jelezte, ha felvétel volt folyamatban, a tulajdonosok pedig Roomba további tökéletesítésére elküldték az anyagokat a gyártóhoz. Természetesen csak azokat, amelyeket el akartak küldeni.

Tehát a fejlesztő azt gondolja, hogy a nyilvánosságra került anyagok alanyai hozzájárultak Roomba általi megfigyelésükhöz. A beleegyezési nyilatkozatot, és a fizetett gyűjtők, alkalmazottak nevét viszont nem árulta el.

Sajnos elképzelhető, hogy a szóban forgó képek csak a jéghegy csúcsát jelentik, mert az internethez kapcsolódó háztartási berendezéseink rengeteg személyes adatot gyűjtenek rólunk.

Jönnek a multifunkcionális ideghálók?

A többszáz különböző feladatot általánosító, kezelő algoritmusoknak csak a kezdeti szakaszában vagyunk, gyerekcipőben járnak még, 2022 több fejlesztése viszont bizonyította: a mélytanulásban (deep learning) megvan a potenciál hozzájuk. Ha felgyorsulnak és eredményesek lesznek az ezirányú fejlesztések, közelebb kerülünk az általános mesterséges intelligenciához.

A több feladatra (multi-task) használható modellek lehetőségei – a feladatok száma – drámai mértékben bővültek. Kutatók a mesterséges ideghálók által elsajátítható adottságok kereteit feszegették, és a fejlesztések 2023-ban nyilván folytatódnak.

gato_1_1.jpg

A nagy nyelvi modellek emergens módon kialakuló képességei jelentették az inspirációt. Másrészt, ezek, a szövegeken és képeken gyakoroltatott modellek ma már meg tudják találni a két különböző adattípus közötti kapcsolatokat. Harmadrészt, ahhoz, hogy ugyanaz a modell előbb verset, majd számítógépes programot írjon, nem kell áthangolni az architektúrát.

A Google PaLM modellje demonstrálta, hogy nyelvmegértéssel és szöveggenerálással kapcsolatos, többszáz feladatot néhány lépés alatt képes megoldani. Egyes esetekben az ezekre a célokra finomhangolt modelleket és az embert is felülmúlta.

gato0_1.jpg

A DeepMind (spanyolul macskát jelentő) Gato transzformere hatszáznál több változatos feladat kezelését tanulta meg: Atari játékok használatát, építőkockák egymásra rakását, robotkar alkalmazását, képaláírások generálását stb. Egyelőre nem annyira jó bennük, mint a külön-külön egyikre, másikra trenírozott modellek, viszont már maga a tény is figyelemre méltó.

A rendszert felügyelet melletti tanulással gyakoroltatták, szimultán használt hozzájuk sok és nagyon különböző adatsort. Ezeket a képi, szöveges, cselekvés stb. adatsorokat megerősítéses tanuláson alapuló ágensek generálták.

A Google kutatói a robotikára is próbálják alkalmazni az új megközelítést. Az RT-1 transzformer lehetővé teszi, hogy egy robot hétszáznál több feladattal boldoguljon. A cselekvésekből és a képekből tokeneket generáló rendszer másfél év alatt összegyűjtött adatsoron tanult. Az adatsorban robotflottákról szóló 130 ezer epizód található. Korábbi technológiákkal összevetve, feltűnően jól teljesített.

2022 a szintetikus képek éve volt

2022 a mesterségesintelligencia-történelem egyik szó szerint is leglátványosabb éve volt. Szinte emberi szintű szövegeket, képeket és kódokat generáló rendszereket ismertünk meg. Ezek a rendszerek komoly kérdéseket vetnek fel a kreativitás jövőjével kapcsolatban.

Vegyi és fizikai folyamatokat megfejtő modellek tudományos felfedezésekhez vezettek, míg a kormányok igyekeznek egyre inkább ellenőrzés alatt tartani az ezeket az újításokat lehetővé tevő mikroprocesszorokat.

20221.jpg

A sok újdonság közül is kiemelkednek a 2022-es innováció legfőbb terepét jelentő képtechnológiák. Az MI által készített képek virálissá váltak, komoly vitákat kavartak, és még több befektetői pénzcsapot nyitottak meg.

A szövegből képet generáló (diffúziós) rendszerek új nemzedéke rengeteg kísérletre inspirált felhasználót és fejlesztőt, néhány szavas szöveges leírásokból (promptokból) döbbenetes művészi erejű, fotorealisztikus fantáziaképek, alkotások születtek. Vállalatok gyorsan le is csaptak a technológiára, az MI-s képgenerálást alkotó/editáló szoftvereikbe integrálták.

2022.jpg

Könnyen kezelhető felhasználói felületük, szórakoztató outputjuk, nyílt „természetük” miatt 2022-ben ezek a képalkotó modellek váltak az MI nyilvános arcává.

A Microsoft által az exkluzív kereskedelmi jogok ellenében anyagilag támogatott OpenAI DALL.E 2-je áprilisban jött ki, másfél millióan bétatesztelték, szeptemberben tették széles körben hozzáférhetővé. A redmondi cég AI, mint szolgáltatást (AI-as-a-Service) integrálta Azure platformjába.

20220.jpg

Júliusban a viszonylag egyszerűbb Craiyon képei árasztották el a közösségi tereket, majd jött a Stability AI nyílt forrású Stable Diffusion modellje, novemberben pedig már a több mint százmillió dollár friss befektetői tőkével jutalmazott 2.0 változat. Az Adobe, a Getty Images és a Shutterstock saját termékeikbe és szolgáltatásaikba integráltak képgeneráló modelleket.

Mivel ezek a rendszerek a megadott promptok miatt drasztikusan különböző outputokat hoznak létre, többen rájöttek a szöveg alapú utasítások kidolgozásában rejlő üzleti potenciálra. A PromptBase online piacteret is nyitott erre a célra.

20222.jpg

A sikernek megvannak a hátulütői is. Mivel a gyakorlóképeket a világhálóról gyűjtik össze a fejlesztők, bőven akadnak közöttük elfogultak, sőt, sértők is. A művészi avatárokat készítő (egyébként sikeres) Lensa AI fotószerkesztő app több felhasználója, elsősorban nők a túlzottan „szexualizáló” képekre panaszkodtak. Az ArtStation online művészi közösség – a szellemi tulajdon elsajátítását megakadályozandó – saját szöveg-text rendszert dolgozott ki, amelyet viszont sok művész, a nehezen kidolgozott stílusokat pillanatokon belül lemásoló program miatt bojkottál.

2023-ban a trend folytatása várható, állóképek után a mozgóképeken és tárgyakon lesz a sor, ezt vetítik előre a Google és a Meta szövegből videót generáló modelljei, illetve az OpenAI szövegből 3D objektumokat varázsoló rendszere.

süti beállítások módosítása