Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

A világ leghíresebb robotjai is részt vettek a genfi mesterségesintelligencia-csúcstalálkozón

2023. július 13. - ferenck

A mesterséges intelligencia fejlődésével, a modellek komoly tanulási kapacitásával, kormányok világszerte dolgoznak MI-stratégiákon. Július hatodikán és hetedikén, e tendencia jegyében, Genfben tartották az ENSZ égisze alatt a Nemzetközi Távközlési Egyesület, az ITU által szervezett AI for Good globális csúcstalálkozót.

A világ leghíresebb, az egészségügytől a popzenéig, szinte minden területen érintett ötvenegy robotja is szerepelt a vendéglistán. Az ENSZ legtöbb szervezete és befektetők is jelen voltak a fenntartható fejlődésre összpontosító rendezvényen. Megvitatták az emberiség előtt álló legnagyobb kihívásokat, köztük a 2030-as agendában megfogalmazott tizenhét Fenntartható Fejlesztési Célt.

global_summit0.jpg

Az MI kapcsán a felelős fejlesztés biztosításáról és támogatásáról beszéltek, és az ötvenegy illusztris robot, köztük kilenc humanoid ezt volt hivatott szemléltetni. Mindegyiket úgy szerelték fel és mára úgy alakították ki vagy át, hogy a fejlesztési célok szellemében segítsenek embereknek.

Grace (második kép, baloldalon), a Hanson Robotics és a SingularityNET közös fejlesztése idős személyek (és persze bárki más) egészségének megőrzésében nyújt támogatást, de oktatási szolgáltatásokat is nyújt. Az egyenlőtlenséget fogyatékkal élőkről való gondoskodással igyekszik csökkenteni. Jelenleg ő a földkerekség legfejlettebb egészségügyi robotja, érzelmeket tanúsít, állítólag empatikus is, száznál több nyelvet ért.

global_summit.jpg

A szintén a Hanson Robotics által fejlesztett Sophia (első kép, második kép jobboldalon) évek óta közszereplő, most az ENSZ Fejlesztési Programjának Innovációs Nagykövete. Pont úgy néz ki, mint egy sci-fi hős.

Az Engineered Arts Amecája mesterséges intelligencia és mesterséges test fejlett, iteratív technológiákkal megvalósított szintézise. A platform szépen szemlélteti, hogy emberek a jövőben hogyan élhetnek, működhetnek együtt gépekkel.

A Genfi Egyetem Nadine-ja a világ egyik legélethűbb közösségi robotja, Hiroshi Ishiguro Geminoidja szintén ultra-realisztikus, a Neura Robotics 4NE-1-e kognitív szempontból talán a legfejlettebb szerkezet, az Ada Lovelace (született Ada Byron) előtt tisztelgő Ai-Da művész, Desdemona pedig rocksztár.

        

Kész az első nyílt forráskódú kínai operációs rendszer

Július ötödikén fontos esemény történt a kínai számítástudományban: bejelentették az ország első otthon fejlesztett nyílt forráskódú operációs rendszerét. Az oprendszer neve OpenKylin, rendeltetése, hogy Kína csökkentse infokommunikációs függőségét az amerikai technológiáktól.

Az Egyesült Államoktól független operációs rendszer fejlesztése évek óta kiemelt cél volt. A „chipháború” kitörése óta pedig Kína, amennyire lehetséges, még inkább el akar szakadni a terület világelső nagyhatalmától.

openkylin.jpg

Az OpenKylin a szintén nyílt forrású Linux operációs rendszeren alapul. A fejlesztésben több mint négyezren vettek részt (számos vállalat és más szervezet is), és az ország űrprogramjában, valamint egyes iparágakban, mint például az energetika, illetve a pénzügyi szektorban máris használják. Az egyik legfőbb támogató az Ipari és Technológiai Minisztérium által felügyelt Kínai Ipari Vezérlőrendszerek Cybervészhelyzet-reagáló Csapata volt.

Legalább tucatnyi kínai cég próbál a Microsoft Windowsát és az Apple MacOS-ét helyettesítő rendszert fejleszteni. Egyikük, a UnionTech Software Technology Unity nevűn dolgozik.

openkylin0.jpg

Most viszont itt van az egyébként angolul is egész jól működő OpenKylin. Évek óta dolgoznak rajta, egyik változatáról, a 0.9.5-ről januárban írtak, az 1.0 kódnevét pedig az ország legnagyobb folyójáról, a Jangcéről kapta.

A Firefox az alapértelmezett webböngésző, a WPS Office az irodai programcsomag. A kínai nyelvű app store-ban változatos alkalmazások szerezhetők be (a mobil szekcióban androidos appok). A korábbi változatokhoz hasonlóan, a mostani tálcáján is van időjárás-alkalmazás (igaz, csak kínai városokkal), hangasszisztens stb. VPN (Virtual Private Network) is konfigurálható, viszont csak korlátozottan használható.

   Egy iparági beszámoló alapján, az operációs rendszerek helyi piaca nagyon masszív, hozzávetőleg 15,5 milliárd jüan (2,1 milliárd amerikai dollár) értékű.

Hol van a Meta generatív mesterséges intelligenciája?

A Microsoftnál és a Google-nál egy ideje majdnem minden a szöveggenerálásról szól, miközben a Meta még semmilyen zászlóshajónak nem nevezhető generatív MI-terméket nem mutatott be, és eléggé lemaradt a versenyfutásban. A generatív mesterséges intelligencia gyors térnyerése felboríthatja a techvilág rendjét. A Meta hirtelen védekező pozícióban találta magát, pedig komoly összegeket fektettek nagy nyelvmodellekbe (large language models, LLM), képmodellekbe.

A személyzet változása, nem megfelelő prioritások, nem elegendő számítási kapacitás és a korábbi események (a Facebook-felhasználók adataival dolgozó Cambridge Analytica szerepe a 2016-os brexit-szavazásban és amerikai elnökválasztásban, majd a látványosat bukó nyelvmodellek) miatti óvatosság lehetnek az okok – derül ki a Wall Street Journal névtelenségüket megőrző mostani és korábbi, tucatnyi Meta-dolgozóval folytatott beszélgetéseiből.

meta_1.jpg

Tavaly több, LLM-eken dolgozó kutató távozott a cégtől. Állítólag az „MI-főnök”, Yves LeCun nem rajong a nyelvmodellekért, és kevés számítási kapacitást adtak ilyen célokra, ráadásul nincs elég mérnök, inkább tudósokat alkalmaznak. A kutatásokat előnyben részesítik a terméktervezéssel szemben, ami szintén nem kedvez az LLM-fejlesztésnek.

Közbejött még a csúcsminőségű MI-chipek hiánya, míg a rendelkezésre állókat – és más forrásokat is – inkább szétszórt projektek, semmint egységes stratégia megvalósításának szolgálatába állították. Tavaly két LLM-jük, a Galactica és a BlenderBot 3 is óriásit bukott, ami szintén nem inspirálja a vállalatot ezirányú fejlesztésekre.

Ugyanakkor tisztában vannak a helyzettel, és próbálnak tenni ellene. Az utóbbi hetekben több MI-terméket jelentettek be: chatbotot a Messengerhez és a WhatsApphoz, fényképszerkesztőt az Instagramhoz, termelékenység-asszisztenst belső használatra.

A mostanában Elon Muskkal rivalizáló, ellen-Twittert indító Mark Zuckerberg még februárban a közvetlenül Chris Cox termékmenedzser-nagyfőnök alá tartozó, új generatív MI-csoportról beszélt. Modellek gyakoroltatásával, és termékekbe (Facebook, Instagram, WhatsApp) integrálásukkal foglalkoznak.

Talán jobban oda kellene figyelniük a többszáz személyből álló, fókuszált csapattal diszruptív technológiát fejlesztő OpenAI-ra. A modellt máris több cég követi, átstrukturálva magát, és kutatók által futtatott különböző kisebb projektek helyett, kutatókból és mérnökökből álló, kevesebb, de masszívabb projektekkel foglalkozó, nagyobb munkacsoportokat szerveznek. Üzleti szempontból ez a modell még akkor is ígéretesebb, ha egyesek inkább a kutatói szabadsághoz ragaszkodnak, és távoznak az adott vállalattól.

Az adatcímkézők a mesterségesintelligencia-forradalom elfelejtett hősei

Fei-Fei Li, a Stanford Egyetem ismert mesterségesintelligencia-kutatója 2007-ben, még a Princeton Egyetemen – a közösségi ötletbörzén (crowdsourcing) alapuló adatannotálás úttörőjeként –, képfelismerő betanításához, a képek számát tízezrekről milliókra növelte. A munkához az Amazon Mechanikus Török platformja többezer dolgozójának szolgáltatását vették igénybe.

Így született meg a gépi látás kulcsfontosságú adatsora, az ImageNet.

adatcimkezes0.jpg

Csúcsteljesítményű mesterségesintelligencia-rendszerek fejlesztése nagymértékben függ a pontosan annotált adatoktól. A gazdaságos címkézés a szolgáltatókat a tevékenység automatizálására ösztönzi, a dolgozók pedig lassan lemorzsolódnak. A címkézést kevésbé tekintik hivatásnak, sokkal inkább alkalmi állásnak.

A szolgáltatók (Centaur Labs, Remotasks, Surge AI stb.) automatizált rendszerekkel kezelik világszerte a munkaerőt. A dolgozók képesítési vizsgákon, képzésen, teljesítmény-ellenőrzésen vesznek részt olyan feladatok elvégzéséhez, mint határoló keretek rajzolása, közösségi médiumokban kifejezett érzelmek osztályozása, videoklipek értékelése a szexuális tartalom alapján, hitelkártya-tranzakciók tanulmányozása, chatbotok válaszának pontozása, különféle arckifejezésű szelfik feltöltése stb.

A bérezésben nagyok az eltérések: Kenyában egy dollár per óra, az USA-ban huszonöt dollár vagy több is lehet ugyanannyi időre. Ha egy feladathoz speciális ismeretek szükségesek, és fárasztó is, az illető akár háromszáz dollárt is kaphat érte.

adatcimkezes.jpg

Az ügyfelek üzleti titkait megőrzendő, a munkáltatók az ügyfél, az alkalmazás vagy a funkció azonosítása nélkül adnak ki megbízásokat. A dolgozók nem ismerik az általuk készített címkék rendeltetését, és óva intik őket, hogy a munkájukról bárkinek is beszéljenek.

A feladatok sokszor nem egyértelműek. Például ha ember által viselt ruhát kell felcímkézni, próbababán vagy rajzfilmben látottak kiesnek. De mi van, ha tükörképet látnak, vagy mondjuk, a páncél öltözéknek számít, vagy sem?

Mivel a fejlesztők folyamatosan iterálják modelljeiket, a címkézés szempontjai változnak, és a dolgozóknak az egyre több kivételről sem szabad megfeledkezniük.

A munkabeosztás sporadikus, kiszámíthatatlan. Azt sem lehet tudni, mikor és milyen lesz, meddig tart a következő megbízás, mennyit fizetnek érte. Ennyi bizonytalanság demoralizál.

Sok adatcímkéző titkos WhatsApp csoportokban információk megosztásával, tanácsok kérésével vezeti le a stresszt. Együtt tanulnak meg trükköket, például hogyan használjanak MI-modelleket munkájuk elvégzésére. Tartózkodási helyüket titkolva, proxi szervereken kapcsolódnak, több álnéven tartanak fenn felhasználói fiókokat, máskülönben könnyen elveszítenék alkalmi munkáikat.

Pedig az adatközpontú fejlesztések miatt az ügyes címkézők felértékelődnek, és ha MI-kutatók viszonylag kevés példával akarnak jól működő rendszereket építeni, a kiválasztás és az annotálás kulcsfontosságúvá válik.

Újabb lépés a méretezhető kvantumszimuláció felé

A Rochester Egyetem kutatói chipléptékű optikai kvantumszimulációs rendszert fejlesztettek, amellyel sokat segíthetnek abban, hogy a jövőben nagyobb léptékben, és ne csak kísérleti szinten valósíthassanak meg ilyen rendszereket.

De mire is jó ez a fejlesztés?

Arra, hogy komoly lépést tettek vele komplex természeti jelenségeket kvantumszinten szimulálni képes számítógépek felé. Mivel az ilyen típusú szimulációk túl nehézkesek vagy kivitelezhetetlenek hagyományos komputerekkel, fotonika-alapú kvantumszámítási rendszerek jelenthetik a megoldást.

kvantumszimulacio.jpg

Kvantumszámítógépek fejlesztésének egyik célja kvantumrendszerekhez hatékony szimulátorok kidolgozása. Az utóbbi esztendők fotonikai fejlődése lehetővé tette a geometriai dimenzióktól kötetlenebb szimulációkkal való kísérletezést.

A Rochester Egyetem projektje is ezért lehet sikeres.  

A szimulációkat az összefonódott fotonok frekvenciájának vagy színének kontrollálásával, a fizikai világot utánzó szintetikus térben futtatták le. Ez a megközelítés különbözik a hagyományos foton-alapú számítási módszerektől. Azokban a fotonok útját kontrollálják, itt tulajdonságaikat. Másrészt az új módszerrel lényegesen kevesebb erőforrásra van szükség, és a fizikai lábnyom is drasztikusan csökken, tehát fenntarthatóbb.

A kutatók elmondták, hogy most sikerült először létrehozni kvantumszintű szintetikus kristályt. Módszerükkel szignifikáns mértékben nő a szintetikus tér dimenziója. Ezzel válik lehetővé több kvantumszintű jelenség, mint például az összefonódott fotonok mozgásának szimulálása.

A rendszer jóval bonyolultabb jövőbeli szimulációk alapja lehet. A kísérlet bebizonyította, hogy a megközelítés működőképes, és a kutatók izgatottan várják, hogy újabb számítási feladatokat szimuláljanak vele.

Analóg optikai számítógépet mutatott be a Microsoft

Az egyelőre inkább csak elméleti optikai vagy fotonikus – digitális – számítógép nem elektronokat, hanem fotonokat használ az információfeldolgozáshoz. A Cambridge-i Microsoft Kutatólabor viszont bemutatta a világ első analóg optikai komputerét, amely fénysebességgel old meg optimalizálási problémákat. A gép ahelyett, hogy tranzisztorokkal bináris bitekké lyukasztaná a folyamatos adatokat, fotonokat és elektronokat is használ a feldolgozásukra.

Az élet minden területén szembesülünk optimalizálási problémákkal. Lényege, hogy egy folyamatnál a legkevesebb erőforrás-felhasználással érjük el a legnagyobb hasznot. Minél nagyobb a probléma, annál tovább tart a megoldás keresése, és még a világ leggyorsabb számítógépeinek is évekbe telik, mire komplex feladatokkal megbirkóznak.

microsoft_4.jpg

A legklasszikusabb példa az utazó ügynök esete: tizenkét városba kell eljutnia, és mielőtt visszatérne a kiindulási helyre, úgy kell megtalálnia a legrövidebb utat, hogy egy várost csak egyszer érinthet. A városok számának növekedésével a lehetséges útvonalak száma is exponenciálisan nő. Heurisztikus algoritmusokkal hozzávetőleges megoldások ugyan születnek, és a problémák bináris absztrakciója miatt korlátozott hagyományos számítógépeknek egyelőre nincs is alternatívájuk.

A Microsoft-csapat – alternatívaként – kevert, bináris és folyamatos változókat használó absztrakciót javasol. Absztrakt interaktív gépet (AIM), egy analóg optikai számítógépet használva jutottak el eddig.

microsoft0_2.jpg

A fotonoknak azt az adottságát használták ki, hogy nem egymással lépnek interakcióba, hanem az anyaggal, amelyen áthaladnak, és így végeznek el olyan egyszerű matematikai műveleteket, mint az összeadás vagy a szorzás.

A vektor-mátrixszorzásokhoz fénytant és elektronikát használó fizikai rendszer felépítésével, a kutatók megtalálták az optimalizálási problémák megoldásához szükséges számítások gyors és hatékony végrehajtási módját. Ráadásul a rendszer alkotóelemeit úgy sikerült miniatürizálniuk, hogy apró, egy centis chipekben elférjenek. Az AIM nem nagyobb, mint egy rack szekrény. Az elsőgenerációs AIM számítógép akár hétbites pontosságot is elér.

A Microsoft a Barclays bankkal igyekszik a való világban, a pénzpiacon tesztelni a gépet. Napi többszázezer tranzakció optimalizálásán dolgoznak, az első próbálkozások sikeresek. A cég szerint optikai komputerekkel a szilícium-alapú számítások két nagy problémája, a Moore-törvény és a bináris számítások korlátai is kezelhetők.

Csendes robothal gyűjt infókat az óceán élővilágáról

A túlhalászás, a környezetszennyezés, az éghajlatváltozás egyaránt súlyos veszély a bolygó területének hetven százalékát jelentő óceánok számára, amelyek ökoszisztémáiról a mai napig kevés információ áll rendelkezésre, ráadásul nagyon nehéz a biológiai sokszínűségről szóló, elegendő mennyiségű jó adathoz jutni.

A mostani kutatásokhoz általában az élővilágot zavaró és nem „érzékeny” környezetre kitalált ember nélküli, propelleralapú vízi járművek végzik az adatgyűjtést, amelyek kárt okozhatnak a korallokban, elriaszthatják a halakat stb.

robothal0.jpg

Az élővilág számára viszont életbevágó az óceánkutatás. Az óceánok szabályozzák a vizeket, az éghajlatot, a hőmérsékletet, mindenféle földi életet, az emberét is. Több mint nyolcvan százalékuk felderítetlen, biodiverzitásuk a bolygó „jólétének” kritikus tényezője.

Az ETH Zürich kutatói eldöntötték, hogy új módszerrel próbálnak pontosabb információhoz jutni az óceánokról. Belle nevű robothalat fejlesztettek, amely víz alatt úszik, a környezet megzavarása nélkül filmez, gyűjt mintákat az ottani élővilágról.

robothal1.jpg

A kutatók elmondták, hogy pont úgy akarják megörökíteni az ökoszisztémákat, ahogy azok viselkednek. Ezért fejlesztettek halként viselkedő, a többi élőlény által halként befogadott robothalat. Két dolgot kellett megvalósítani hozzá: mozogjon úgy, mint egy hal, és legyen csendes. Dolgozzon úgy, mint egy kém, kémlelje a vízi világ titkait.

robothal.jpg

A közel egy méter hosszú Belle fejében van az elektronika és a kamera, ez az egyetlen tényleg vízhatlan „testrésze.” A hasában vannak a motorok, az akkumulátor és a környezeti DNS-mintavételt biztosító szűrő és pumpák. Az összegyűjtött részecskékből, köztük lárvákból és algákból szedik ki a DNS-t, az alapján tudják meghatározni, hogy az óceán melyik részén milyen élőlények találhatók.

A robothal szilikonból készült végében lévő két üreg vízzel telik meg, és ürítődik ki. Belső pumpák szabályozzák, segítve a közel tízkilós Belle mozgását. Mivel rádiófrekvenciákra nem kapcsolódik, kétórányi adatgyűjtés után a felszínre úszik, és GPS-jeleket küld a kutatóknak, hogy merre keressék. Ők ürítik ki a szűrőket, és töltik fel, vagy cserélik ki az akkumulátort.

A fejlesztők bizakodnak, hogy robotjukkal a vízi élővilág számára biztonságosabb lesz az óceánkutatás.

Mesterséges intelligenciával írnak szövegeket a Mechanikus Török dolgozói

Hacsak nem kisebb MI-modellt tanítunk meg egy nagyobb utánzására, a géppel generált adatokon történő gyakorlás, úgy tűnik, befolyásolja a modell teljesítményét. Nehéz elképzelni, hogy kizárólag ChatGPT outputokon tanult nyelvmodellek felülmúlják magát a ChatGPT-t. Viszont ha humán adatokkal gyakorol, jobban teljesíthet nála.

Mindez azt jelenti, hogy az átláthatóság hiánya, azaz, ha nem tudjuk, melyik adat származik embertől, és melyik géptől, komoly kihívás MI-fejlesztők számára.

turk.jpg

Az Amazon 2005-ben indított Mechanikus Törökje fontos szerepet játszik a gépi tanulás fejlődésében, a szakterület sok ismert adatsora, például az ImageNet közösségi ötletbörze (crowdsourcing) eredménye.

Mivel meg vannak győződve arról, hogy a munkát emberek végzik, gépitanulás-fejlesztők gyakran használják gyakorlóadatok gyűjtésére és annotálására a Mechanikus Törököt és más hasonló szolgáltatásokat. Viszont ha a közösségi ötletbörzések jelentős része mesterséges intelligenciával dolgozik, megkérdőjeleződik az adatok minősége, és a rajtuk gyakoroltatott modell hitelessége. Friss kutatásokból kiderült, hogy a gyakorlósorban lévő MI által generált tartalom növekedésével fordított arányban, a modell teljesítménye gyengül.

turk0.jpg

A svájci EPFL (École Polytechnique Fédérale de Lausanne) kutatói kimutatták, hogy a Mechanikus Török alkalmazottai közül több írásos anyagán észlelhető a ChatGPT „kézjegye.”

44-en nagyjából száz szóban foglalták össze orvosi kutatások absztraktjait. A ChatGPT nyomait keresve, a kutatók két módszert használtak az elemzéshez.

Az elsőhöz a Hugging Face e5-base modelljét az emberek által korábban írt és a ChatGPT-t használók által generált összefoglalók megkülönböztetéséhez finomhangolták. A másodikkal nyomon követték a Mechanikus Török dolgozóinak billentyűleütéseit. Az egyező billentyűleütések és beadványok bizonyították: a szöveg ember munkája, míg a másolásra és beillesztésre utalók az ellenkezőjét, vagy legalábbis azt, hogy egyes részeket az MI generálta.

44 személy 46 írásos összefoglalóját elemezve kiderült, hogy 21-nél 50, 15-nél pedig 98 százalék vagy nagyobb volt az esély a ChatGPT szerzőségére. Másolást és beillesztést 41-hez használtak.

Az eredmény elgondolkoztató, a minta viszont túl kicsi, ráadásul az összegzés emberek számára kifejezetten munka-intenzív feladat, amit nyelvmodell is képes elvégezni. Más közösségi ötletbörze-tevékenységeket jóval nehezebb automatizálni.

A mesterséges intelligencia szabályozásának nehézségei

A mesterséges intelligencia gyors fejlődésével, a ChatGPT és a szöveges utasításokból képet létrehozó modellek, a generatív MI elterjedésével lassan már mindenki szabályozni akarja a területet. Az Európai Unió a kockázatokat csökkentő és a személyiségi jogokat védő törvényt dolgozott ki, az Egyesült Államokban pár hónapon belül várható a szabályozás.

Andrew Ng, világhírű gépitanulás-szakértő heti hírlevelében ezt a témát járja körül. Szabályozáspárti, viszont kétségei vannak: segítenek-e, hatékonyak lesznek-e az új törvények? Jelen pillanatban nagyon kevés döntéshozó rendelkezik elegendő ismerettel, érti eléggé a terület lehetséges előnyeit és kárait ahhoz, hogy működő törvényeket hozzon az MI-ről.

ai_regulation.jpg

„A kevés tudásnál csak egyetlen dolog veszélyesebb: ha anélkül tudunk keveset, hogy, értenénk, mennyire keveset tudunk” – figyelmeztet lényegre törően Ng.

Örül, hogy a szabályozók többet akarnak tudni az MI-ről, viszont veszélyes helyzetet teremthet, ha miután sokat beszélgettek kutatókkal és üzleti szereplőkkel, azt hiszik: elég jól ismerik már a területet. Ezzel szemben az igazság az, hogy a földkerekségen csak néhány személy rendelkezik például a következő kérdések megválaszolásához szükséges információkkal: hogyan befolyásolják az MI-vel kidolgozott fizetős hirdetések több országban a választásokat? Hozzájárul-e bármelyik közösségimédia-vállalat népirtáshoz vagy hasonló szörnyű eseményekhez? Milyen típusú MI által generált tartalmak készülnek, és hogyan befolyásolják az embereket?

A válaszokhoz jobban kellene ismerni az MI-fejlesztő vállalatokat. Tőzsdén jegyzett cégeknek sok országban részletes tájékoztatatást kell adniuk pénzügyi helyzetükről. A követelményeket tolakodónak vagy terhesnek találhatják ugyan, de az ezeken az információkon alapuló átláthatóság miatt nagyobb a pénzügyi rendszerekbe fektetett bizalom. Hasonlóra kellene törekedni az MI-fejlesztő vállalatokkal is: tevékenységüket részletesen ismertessék az illetékes állami hatóságokkal.

Nagy cégeknek esetleg elemezniük kell, vagy független szervezetek elemzik nekik, hogy mennyi különféle színezetű (fontos társadalmi kérdésekben pro vagy kontra álláspontot képviselő) tartalmat juttatnak el fogyasztóik különféle (lakhely, demográfia stb. szerinti) alcsoportjaihoz. Az eredmények összesítésével, a személyiségi jogok tiszteletben tartásával oldható meg a feladat. Ilyen típusú információkkal a szabályozók láthatnák a technológia és a valóvilág eseményei közötti összefüggéseket, nélkülük viszont képtelenek megfelelő szabályozást kidolgozni.

Az MI gazdagabbá teszi a világot, a kormányok pedig fontos szerepet játszanak az előnyök maximalizálásában és a hátrányok minimalizálásában. De amíg nem változik az átláthatóság, addig a törvényhozóknak nehéz felismerniük a technológia bármilyen irányú hatását. Nehéz lesz lobbistákat megakadályozni a törvényalkotás versenytársakat korlátozó befolyásolásában, saját érdekeik társadalmi érdekekkel szembeni érvényesítésében – összegez Ng. Bizakodik, hogy mindnyájan segíthetnek a szabályozóknak, hogy konstruktív szerepet játsszanak az MI fejlődésében.

Megmondja az MI, hogy mit lát az agy?

Két japán kutató, a szöveges utasításokból, promptokból képeket létrehozó egyik legismertebb modellt, a Stable Diffusiont használó módszert dolgozott ki tesztalanyok agya által látott képek rekonstruálására.

Azaz, arra keresték a választ, hogy mit lát az agy, amikor ránéz egy képre. Az alanyok agyát éppen ezért pont akkor szkennelték le, amikor tekintetük a képekre meredt.

agy_mit_lat.jpg

Gyakorlás közben, a szöveget képpé alakító MI „zajos” képpel és szöveges leírással kezd. Egy modell beágyazza a leírást, egy diffúziós modell pedig megtanulja, hogy a beágyazással egymást követő lépésekben eltávolítsa a képben lévő zajt.

Így történik maga a képgenerálás folyamata is: a rendszer tiszta zajjal és a leírással indít, majd a szövegnek megfelelően, iteratív módon távolítja el a zajt ahhoz, hogy elkészüljön a kép. Úgynevezett látens diffúziós modellekkel kevesebb számítással végezhető el az egész folyamat.

A Stable Diffusion más látens diffúziós szövegből képet generáló modellekhez hasonlóan, különböző beágyazásokat használ kapcsolódó képekhez és szöveges leírásokhoz.

Az emberi agy a szembe érkező inputot feldolgozó területe az input szenzorikus és szemantikus aspektusait kezelő részekre osztható. Funkcionális mágneses rezonanciás képalkotással (fMRI) végzett szkeneknél, ezek a területek külön-külön beágyazhatók a szokásos kép- és szöveg-beágyazásokhoz. A kutatás alanyaival ilyen szkeneket végeztek.

Ezeket a beágyazásokat használva, kiderült, hogy a Stable Diffusion létre tudja hozni az adott személy által agyszkennelés közben látott képet.

A kutatók megállapították: munkájuk annyira eltér a hasonló korábbiaktól, hogy nincs értelme kvantitatív összehasonlításnak. Minőségi szempontból, a témákhoz generált képek nagyjából ugyanazokat a jeleneteket ábrázolták, mint az alapképek, a részletek, egyes részletek viszont eltértek.

süti beállítások módosítása