Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Nem létező személyekhez generál testeket egy mesterséges intelligencia

2019. május 07. - ferenck

Egy új mélytanuló (deep learning) algoritmus szórványos adatokból generál nem létező személyekről nagyfelbontású és életnagyságú képeket. Arcuk, hajuk, testük, ruházatuk, mindenük úgy néz ki, mintha valódiak lennének.

A fejlesztés a Kyoto Egyetemen működő japán DataGrid vállalat munkája. Ezek a mesterséges intelligencia által alkotott modellek a legélethűbbek a hasonló eddigi törekvések közül. A technológiát hamarosan ruhakészítők és reklámügynökségek használhatják, fotogén modelleket dolgozhatnak ki és anélkül szerepeltethetnek különféle rendezvényeken, hogy etetni-itatni kellene őket, és fizetnének nekik.

body_generating.jpg

Az MI modellt modell után hoz létre: megformálja az alakjukat, majd felöltözteti őket, de a ruhájukat is átalakítja közben. Bomberdzsekiből télikabát lesz, télikabátból különleges grafikájú ruha stb.

Az algoritmus a „generatív ellenséges hálózatok” (Generative Adversarial Network, GAN) technikán alapul. Ezt a mesterségesintelligencia-eljárást gyakran használják a valóságban létező tárgyak, személyek stb. utánzására, például videojátékokhoz, karikatúrához és persze kamuvideókhoz, képek manipulálásához is (például a „deep learning” – mélytanulás – és a „fake” – ál, hamis, kamu – kifejezéseket összevonó deepfake-ek esetében).

body_generating0.jpg

A GAN lényege, hogy a mélytanulásban két MI segít egymásnak, az egyik realisztikus képet készít például egy oroszlánról, a másik pedig elbírálja azt, megítéli, hogy a kép valódi, vagy sem. A kritikus attitűd következtében a kép folyamatosan javul, és a sokadik iteráció után tényleg valósághű lesz.

GAN technikával eddig általában arcokat generáltak, több-kevesebb sikerrel, időnként egészen bizarr végeredménnyel, például aszimmetrikus fülekkel, furcsa fogakkal, a színek meghökkentő elrendezésével.

A DataGrid rendszere az algoritmus megtévesztésére alkalmas külső infókat nem használ. A modelleket sima fehér háttér elé helyezi, és élethű fénnyel világítja meg őket.

Minden egyes alkalommal, amikor kutatók valósághű képek vagy deepfake-ek generálásra alkalmas új algoritmussal állnak elő, felmerül a kétely, hogy az MI által „teremtett” média negatív célokra, például manipulatív propagandatevékenységre is használható, és így megrendül a belé vetett bizalom. Ha a DataGrid algoritmusa a divat és a hirdetések világában marad, aligha lesz bizalomvesztés.

Virtuális biztonsági őr Japánban

Az elsőszámú japán otthon- és irodabiztonsági vállalat, a Secom és több más cég, köztük a legnagyobb helyi mobiljáték-fejlesztő, a DeNA, a telekom óriás Docomo, virtuális biztonsági őrt hozott létre. Az életnagyságú, kéköltönyös őr 2020-ban áll munkába, otthonokra és irodahelyiségekre fog vigyázni, például épületek bejáratánál teljesíthet szolgálatot.

Úgy néz ki, mintha valamelyik japán képregényből (mangából), rajzfilmből (animéből), rajzfilmsorozatból vagy éppen egy szimulációs játékból lépett volna ki. Lesz férfi és női változata is, előbbi neve Mamoru, utóbbié Ai.

security_guard0.jpg

A tükörszerű szerkezet különféle funkciókkal rendelkezik, amelyek közül értelemszerűen a folyamatos megfigyelés a legfontosabb.

A Secom sajtóközleményben jelentette be, hogy Mamoru és Ai az elsők, és a következő években (a növekvő igények függvényében) több más virtuális biztonsági őrre is számíthatunk. Fejlesztésük egyrészt a japán lakosság elöregedése miatti egyre markánsabb munkaerőhiányra adott reakció, másrészt – részben ezzel párhuzamosan – szervesen kapcsolódik a jelen és még inkább a közeljövő egyik meghatározó trendjéhez, az automatizációhoz, robotok, mesterséges intelligenciák, virtuális személyek a mainál nagyobb mértékű és szélesebb körű alkalmazásához.

security_guard.jpg

A mesterségesintelligencia-technológiákkal felvértezett biztonsági őr különféle kameráival és mozgásérzékelő megoldásaival ellenőrzi az épületbe belépő személyeket. Gyanús tárgyakat és jeleket is keres, amelyeket az illető igyekszik elrejteni.

Arc- és hangfelismerő szoftvere segítségével meg tudja állapítani, hogy az adott látogató rendelkezik-e a szükséges belépési engedélyekkel. Ha eltakarja a fejét, megkéri, tegye szabaddá, láthatóvá és így azonosíthatóvá.

Mindent, amit látott valósidőben tölthető fel képernyőre, amelyet humán biztonsági őr figyel, és szükség esetén közbelép, intézkedik – nemcsak akkor, ha valaki gyanúsan viselkedik, hanem olyan alkalmakkor is, ha például összetörik egy fontos tárgy stb.

Mamoru és AI recepciósként is működhet. Megválaszolják a látogatók kérdéseit, információkkal látják el, elkalauzolják őket az óhajtott helyre.

Hang alapján mutatja ki a poszttraumás stressz-zavart egy MI

A többek között amerikai háborús veteránoknál jelentkező poszttraumás stressz-zavar (PTSD) az egyik legnehezebben diagnosztizálható pszichés betegség, és évek óta a diagnosztika egyik legnagyobb kihívása. Hagyományos módszerek, például a szemtől szembeni klinikai interjúk az orvos szubjektív megközelítése vagy a tüneteket palástolni igyekvő páciens miatt, gyakran pontatlanok, téves következtetéshez vezetnek.

A New York Egyetem kutatói kivennék a találgatást a diagnosztikából, és mesterséges intelligenciára bíznák a PTSD objektív megítélését. Az MI a páciens hangját vizsgálja.

ptsd.jpg

A felsőoktatási intézmény az iPhone-t Sirivel bővítő SRI International kutatóintézettel közösen végzett vizsgálatokat a témakörben. Öt éve fejlesztenek az emberi beszédet értő, a PTSD jeleit és érzelmeket detektáló programot.

Ugyanaz a tanulási folyamat játszódik le, mint amikor automata ügyfélszolgálati szoftverek elsajátítják, hogyan csillapítsák le a dühös telefonálót. Az emberi fül számára érzékelhetetlen változók és hangmarkerek megfigyelésével, az algoritmus 89 százalékos pontossággal diagnosztizálja a PTSD-t.

ptsd0.jpg

A kutatók 129 háborús veteránnal készítettek interjút, és mindet felvették. A tanulmányhoz 40 ezer beszédmintát használtak fel. Az MI-t a hanganyag alapján tanították be, fel kellett ismernie a PTSD-vel kapcsolatba hozható hangmódosulásokat, például a lassabb és monotonabb hanghordozást, a rövidebb tónustartományt, a kevesebb artikulálást stb.

Az MI apró változásokat is érzékel, például a torokizmokra nehezedő nyomást, vagy amikor a nyelv megérinti a szájat. Ezek mind a PTSD diagnosztizálását segítő jelek.

„Nem azok a beszédjegyek voltak jellemzők, amikre előzetesen számítottunk. Azt hittük, hogy a páciensek izgatottan, zavarodottan fognak beszélni. Az adatok vizualizálásánál a beszédjegyek a vártnál laposabbak, atonálisabbak voltak, viszont sikerült azonosítanunk a PTSD-ben szenvedő személyekre oly jellemző dermedtséget” – magyarázza Charles Marmar, a kutatást ismertető tanulmány egyik szerzője.

Az MI egyrészt a PTSD gyógyításának mérföldköve lehet, másrészt egyelőre korlátozott, mert csak férfikatonák hangját képes kezelni, tehát komoly frissítésekre, átalakításra szorul.

Mihelyst egyetemesebbé válik, a beszédelemzés a rendezetlenség objektív vizsgálatának egyik eredményes biomarkere lehet, amellyel a veteránok pontosabban diagnosztizálhatók.

Mennyire kémkednek utánunk az okos eszközeink?

Otthonaink egyre intelligensebbé és ezzel párhuzamosan egyre gazdagabb adatforrássá válnak különböző vállalatok számára. A kényelemért hajlandók is vagyunk valamit feladni személyes szféránkból (privacy).

Tabletek és okostelefonok mellett sokan rendelkeznek intelligens televízióval, biztonsági kamerákkal vagy éppen a mobilunkkal kapcsolatban álló kávéfőzővel és más csúcstechnológiás háztartási berendezéssel. A dolgok internetével (Internet-of-things, IoT), az otthoni asszisztensekkel, például az Amazon Echojával vagy a Google Home-jával tovább bővült a paletta.

smart_devices.jpg

A Cisco Research felmérése szerint a következő öt évben Észak-Amerikában egy személy átlagosan tucatnyi hálózati készülékkel és kapcsolattal fog rendelkezni. Ezeket a szerkezeteket úgy tervezik, hogy mindig online legyenek (always on) és mindig továbbítsanak adatokat, azaz még akkor is rengeteg információt osztanak meg rólunk, amikor nem használjuk aktívan őket.

Azt viszont nem tudjuk, hogy milyen infókat gyűjtenek, és ki fér hozzájuk. Nem az a meglepő, hogy eszközeink adatokat osztanak meg hirdetőkkel, hanem az, hogy a mennyiség és a gyakoriság szigorú üzleti titok. Természetesen azzal sem vagyunk tisztában, hogy hány cég kapcsolódik egy-egy készülékre.

smart_devices0.jpg

A Princeton Egyetem kutatói (és persze mások is) megelégelték a helyzetet, és változtatni szeretnének rajta. A cél érdekében fejlesztettek egy, az eszközök tevékenységét nyomon követő, az adattovábbítást folyamatosan figyelő appot.

„Intelligens eszközeink figyelnek minket. Ideje, hogy mi is figyeljük őket” – áll az alkalmazás honlapján.

A Princeton IoT Felügyelő az ARP-hamisítás vagy ARP-mérgezés (ARP spoofing) néven ismert hackertechnikát (az útválasztó és a célfelhasználó közötti, wifi-hálózat elleni támadást) használ. Az app „lefüleli” a vezeték nélküli hálózaton folyó összes tevékenységet, például, hogy melyik televíziós hálózat és reklámügynökség tudja, milyen műsorokat néztünk meg okos tévén, de azzal is tisztában van, hogy az intelligens hangfal mennyi személyes információt továbbított a külvilág felé.

A számítógépünkre letöltött (egyelőre csak macOS-re elérhető) app a hálózatunkon lévő összes eszközt figyeli, egyenként megmutatja, hogy melyik milyen adatot gyűjt, kik az online kapcsolatai, mennyi adatcsere történik, milyen gyakran megy végbe adatcsere.

Beszéddé kódolhatók az agyi jelek?

Beszéd közben agyunk jeleket küld szájunkra, nyelvünkre, gégénkre és állkapcsunkra, együttes tevékenységük eredménye az óhajtott hang.

A San Franciscói Kaliforniai Egyetem (UCSF) kutatói öt agyműtéten átesett epilepsziás személy jelzéseit rögzítették, miközben 100 mondatos listát használva beszéltek. A jeleket az emberi hangrendszer számítógépes modelljébe táplálták, amely félig-meddig érthető szintetizált beszédet generált belőlük.

A kutatók nem elvont gondolatok rögzítésével, nem közvetlenül a beszéd dekódolásával, hanem az idegek hangképző szerveket mozgásra utasító jelzéseivel foglalkoznak. Korábban robotkarok irányítására használtak fel az agy más részeiről érkező motorikus jelzéseket.

agy_beszed0.jpg

A felvételeket az agyfelületre helyezett rugalmas elektródasorral készítették. A szintetizált hangokat a Mechanikus Török közösségi ötletbörzén (crowdsourcing) tesztelték, a lehetséges szavak készletével dolgozó önkéntesek próbálták átírni, és átlagosan 50-70 százalékot értettek belőlük.

Andrew Schwartz, a Pittsburgh Egyetem kutatója szerint ez az agy-számítógép interakció (brain-computer interface, BCI) kutatásban eddig végzett legjobb munka. Ha pedig az agyszövetre is kiterjesztenék, még pontosabb eredményt kapnának.

A BCI-k egyelőre nem elég fejlettek, még nem képesek bénulásban szenvedő személyek segítésére, ami az ezirányú kutatások egyik legfőbb célja.

agy_beszed.jpg

Az UCSF szakemberei tavaly Lou Gehrig-kóros betegekkel kezdtek el foglalkozni, és a mostani vizsgálathoz hasonló elektródákból álló implantátumokat terveznek. Egyrészt a beszédszintézis, másrészt külső váz (exoskeleton) irányítása a cél. A rendszert pácienseken még nem tesztelték, és azt sem lehet tudni, hogy milyen eredményt érnek el szájuk mozgatására képtelen személyekkel. (A Lou Gehrig-kór vagy amiotrófiás laterálszklerózis lényege, hogy a központi idegrendszer mozgató idegsejtjeinek pusztulása következtében az akaratlagos izmok fokozatosan elgyengülnek, végül elsorvadnak.) 

Az eredmények mindenesetre kevésbé voltak meggyőzőek, amikor a száj mozgatásával, s nem hangos beszéddel kellett szavakat formálni.

Egyes szilícium-völgyi cégek közölték, hogy szeretnének gondolatokat szöveggé alakító kereskedelmi célú „agyolvasókat” fejleszteni. A Facebook például anyagilag támogatja az UCSF idevágó kutatásait (a „percenként száz szót gépelő első csendesbeszéd-interfészt”), a mostanit viszont nem.

Egyelőre bizonytalan, hogy nem invazív módszerrel kivitelezhető-e egy ilyen interfész (a Facebook nem fejleszt sebészi beavatkozást igénylő implantálható eszközöket). Ha létezne ilyen technológia, nagyon komoly egészségügyi következményei lennének.

Jelen kutatás mindenesetre fontos lépés a súlyosan lebénult személyek verbális kommunikációját segítő, működő kereskedelmi rendszerek felé.

Kaszinók arcfelismeréssel tartják távol a kitiltott játékosokat

A híres hongkongi színész és popénekes, Jacky Cheung ugyancsak meglepődött a kínai Nanchangban, amikor látta, hogy arcfelismerő technológiával dolgozó rendőrök a 60 ezres tömegből emeltek ki egy személyt.

A csúcstechnológiák lehetőségeit szemléltető történet inspiráló és riasztó is; kérdés, mire használjuk ezeket a megoldásokat. Kisebb csínytevésekért kiemelni valakit a tömegből, nyilván túlzás, viszont mesterséges intelligenciával felvértezett új eszközök más területeken, más, sokkal súlyosabb problémák megoldásában is segédkeznek.

casino0.jpg

Például hozzájárulhatnak a játékfüggőség enyhítéséhez.

A kaszinók különösen Ázsia-szerte növekvő népszerűségével egyre több – a jó minőségű algoritmussal pedig könnyen felismerhető – problémás játékos. Sok esetben maguk kérik, hogy tiltsák ki, és ha elgyengülnek, akkor se engedjék be őket.

Folyamatosan nő az arcfelismerő technológiákat használó kaszinók száma, és a technológia ugyan ellentmondásos reakciókat vált ki, de a szerencsejátékok esetében egyértelműen pozitív a megítélése. Egyes rendszerek kifejezetten jól végzik a munkájukat, például egy ausztrál kaszinó mesterséges intelligenciája két álruhába öltözött problémás játékost is azonosított.

casino.jpg

Makaó a világ egyik legvirágzóbb szerencsejáték-központja, és a szabályozás is valamivel szigorúbb, mint máshol. 2018 decemberétől az alkalmazottak például csak munkaidőben mehetnek be kaszinókba, különben nem. Az intézkedés betartatásához a hatóságok a kamerák által rögzített videók, képek elemzését mesterséges intelligenciával végeztetik el. Többek között így akadályozzák meg, hogy a belső információkkal rendelkező alkalmazottak csalásokban vegyenek részt.

Arcfelismeréssel játékfüggők és alkalmazottak mellett kiskorúak szintén kiszűrhetők. Az MI alkalmazásának nagy előnye még, hogy nem kell minden egyes személyt manuális ellenőrzésnek alávetni, és a biztonságiak jobban tudnak komolyabb feladatokra összpontosítani.

Las Vegasban évek óta használnak MI-alapú megoldásokat, élő videókkal dolgozó követőszoftver figyeli, hogy például alkalmazottak elkövetnek-e hibákat. A rendszer annyira kifinomult, hogy megért fogalmakat: játékszabályokat, nyerő és vesztes kimeneteket stb.

A követőszoftvert fejlesztő kaliforniai Brainchip táblásjátékok adatait elemző, és azzal kaszinók bevételeinek optimalizálásában segítő statisztikai MI-megoldást is fejlesztett.

A mesterségesintelligencia-technológiák összességében biztonságosabbá teszik a kaszinók működését.

Szerzői jogok és MI generálta zene: készüljünk fel a jogi szélmalomharcra!

A képzőművészettől a regényírásig, haikuktól a popzenéig, a mesterséges intelligenciák egyre aktívabbak a különböző művészetekben.

 De művésznek tekinthető-e egy MI, ha képes előállítani muzsikát? Ha például valamelyik Beyoncé-számon gyakoroltatunk egy zenét generáló algoritmust, a tanulás eredményeként létrejövő kompozíció után tartozunk-e valamivel a művésznőnek, sőt, törvényes-e egyáltalán jogvédett zenedarabokon tanítani mesterséges intelligenciákat? És ki a szerző: az algoritmus, vagy az azt trenírozó fejlesztő?

aimusic_copyright.jpg

A technológia fejlődésével a közeljövőben egyre gyakrabban merülnek fel hasonló kérdések.

„Nem fogok finomkodni, ez egy komplett jogi szélmalomharc” – nyilatkozta Jonathan Bailey, a hangtechnológiákkal foglalkozó iZotope főmérnöke.

Más tech-, zene- és jogi szakértők Bailey-hez hasonlóan látják a helyzetet, ráadásul a vonatkozó amerikai szabályozásban, törvényekben az „ember” szó egyáltalán nem szerepel, és a szó hiánya miatt nincs is különösebb pereskedés. A meglévő törvények nem számolnak az MI képességeivel, hogy gépek a végtelenig dolgoznak művészek alkotásain, átalakítják azokat. Az 1965-ös amerikai szerzői jogi törvényben és módosításaiban nincs megfogalmazva, hogy kit illetnek meg a jogok, ha számítógép is részt vesz az alkotói folyamatban.

aimusic_copyright0.jpg

A jövőbeli szabályozásból majd kiderül, hogy MI-rendszerek a kreativitást támogató értékes, vagy a keményen dolgozó zenészek munkáját eltulajdonító eszközökké, vagy egyszerre mindkettővé válnak.

A jelenlegi helyzet nagyjából a következőképpen foglalható össze: ha a Beyoncé-számokon betanított MI elkészít egy hasonló darabokból álló albumot, mindaddig nincs gond, és a fejlesztőnek – algoritmusnak? – egy vasat sem kell fizetnie, amíg valamelyik nem emlékeztet megszólalásig az eredetire.

Egyébként a megvásárolt dalok helyzete sem egyértelmű. Addig világos, hogy a fejlesztő akkor és ott hallgatja meg azokat, amikor és ahol akarja. Arra viszont már nincs törvény, hogy például Beyoncé számai felhasználhatók-e gépitanulás-rendszerek gyakoroltatására.

Egyelőre persze a programozóknak valóban zeneszerző MI-ket kellene fejleszteniük, a nem is olyan távoli jövőben viszont egyre közelebb kerülnek a célhoz.

„Olyan, mint az önvezető autók jövője. Az első szint, amikor a művész azért használja a gépet, hogy segítse az alkotásban. A második szint, amikor gép hozza létre, viszont ember adja elő a zenét. A harmadik szint, amikor mindent gépek csinálnak” – magyarázza Leonard Brody kockázati befektető.

Az első két szintre már sok példát láttunk, a harmadikra csak szenzációszámba menő próbálkozásokat, felemás eredményekkel. Ha viszont az MI-k tömegesen eljutnak addig, a jogi „szélmalomharc” jogi „rémálommá” válhat.

Kétmagos sejtszámítógép

A szintetikus biológia egyik régi célja gén-megnyilvánulások digitális modellen alapuló gén-kapcsolásokkal történő irányítása. Digitális komputerek esetében logikai kapuk dolgozzál fel a bemenő jeleket, és az áramkörök csak akkor lépnek működésbe és generálnak például C kimenő jelet, ha az A és B bemenő jel szimultán jelen van.

Biotechnológusok többször próbálkoztak fehérjegének sejten belüli ki- és bekapcsolásán alapuló hasonló áramkörökkel. Az eddigi eredmények nem túl bíztatóak, mert ezek az áramkörök nem rugalmasak, csak nagyon egyszerű programozással működnek, egyszerre csak egy bemenő jelet tudnak (lassan) feldolgozni.

eth_zurich.jpg

Bonyolultabb számítási feladatok sejten belüli megoldása kizárólag speciális feltételek mellett lehetséges, de az eredmények így is bizonytalanok, azaz ezek a sejtszámítógépek egyelőre megbízhatatlanok, és sajnos gyakran csődöt mondanak.

A digitális áramkörök másodpercenkénti többmilliárd utasítást képesek végrehajtani, a sejtek viszont maximum csak 100 ezer inputot dolgoznak fel. A rájuk épülő sejtszámítógépek viszont még meg sem közelítették az emberi sejt metabolikus számítási képességeit.

eth_zurich0.jpg

Egy új fejlesztéssel változhat a helyzet.

A Zürichi Svájci Szövetségi Technológiai Intézet (ETH Zürich) kutatói emberi sejtekbe integráltak a CRISPR-Cas9 genomszerkesztő rendszeren alapuló két processzormagot.

A processzor magja a Cas9 fehérje speciális változata, a bemenő jelek pedig RNS molekulák. A processzor annyi inputjelzést képes feldolgozni, amennyit óhajtunk. Az inputra adott válaszként a CPU szabályozza egy speciális gén megnyilvánulását, majd a gént fehérjévé alakítja.  

A fejlesztés szignifikáns előrelépés a hatékony és rugalmas bioszámítógépek felé vezető úton. A módszerrel két inputból és két outputból álló, méretezhető áramkörök programozhatók emberi sejtekben.

A sejtkomputer biológiai jelzéseket deríthet és dolgozhat fel az emberi testben, majd válaszolhat rájuk. A sejt két pontosan programozott CPU-val bemenő jelekként értelmez két különféle biomarkert.

A kutatók következő lépésben többmagos számítógép-szerkezetet akarnak sejtbe integrálni. Az új gép értelemszerűen még nagyobb számítási kapacitással fog rendelkezni, mint a mostani kétmagos szerkezet.

Klasszikus játékok új grafikával

A mesterségesintelligencia-robbanás egyik legváratlanabb és legpozitívabb „mellékhatása” a videojátékokat érinti. Rajongók rájöttek, hogy a gépi tanulás tökéletes eszköz klasszikus darabok grafikájának megújításához.

Az „MI felskálázás” (AI upscaling) néven ismert technika lényege, hogy az algoritmusba alacsony felbontású képet táplálunk be, és a gyakorlóadatok felhasználásával, az eredetivel egyező, de sokkal több pixelt tartalmazó változat lesz az output.

jatekgrafika.jpg

Maga a felskálázás régóta elterjedt megoldás, az MI alkalmazása viszont nem. Mesterséges intelligenciával drasztikusan gyorsabb a folyamat és jobb minőségű a végeredmény.

Eddig tervezők és kódolók csapatai hónapokig, esetleg évekig dolgoztak klasszikusok felújításán. Gépi tanulással egyrészt néhány hétre rövidült az idő, másrészt nagynevű fejlesztőcégeken kívül az egyszerű felhasználónál magasabb szintű programozási tudással rendelkező rajongók, független modderek is képesek elvégezni a feladatot.

jatekgrafika0.jpg

Egy példa: márciusban a BearborgOne nevű Reddit felhasználó (a feljavított szuper-felbontású generatív ellenséges hálózatot rövidítő) ESARGAN programmal a Metroid Prime 2 darab textúráját varázsolta 4k mesterművé.

Az ESARGAN kiveszi az eredeti darab textúráját, elemzi, kitölti az alacsony felbontású grafika lyukait, és az eredeti designt megtartva javítja fel a minőséget. MI felskálázással kivehetetlen pixelködök részletesen kidolgozott épületekké, fákká stb. válnak. A programmal nagyjából olyan eredmény érhető el, mint amikor restaurált festményeken addig nem vagy alig látott arcokat, arcvonásokat látunk.

Az MI azonban (egyelőre) nem végzi el az összes munkát. Egyes játékoknál hosszú órákig manuálisan kell módosítani az algoritmuson, és néha a végső grafikán is.

Ezzel együtt a gépi tanulás szenzációs segédeszköz.

„Mint a varázslat. Az eredmény úgy néz ki, mintha magától a játékfejlesztőtől töltöttem volna le nagyfelbontású textúracsomagot” – magyarázza az Elder Scrolls III: Mirrorwindet megújító norvég Daniel Trolie.

A régi játékok iránti nosztalgiával és a csináld magad (Do-it-yourself, DIY) attitűd térhódításával a „mozgalom” komoly eredményeket érhet el. Egy-egy ikonikus játék grafikája viszont annyira márkajeggyé vált, hogy új köntösben nem lenne ugyanaz a darab.

Death metalt szerez az idegháló

Nagyjából egy hónapja a Dadabots nevű death metal zenekar YouTube csatornáján nonstop sugározza élőben alkotásait. A projekt neve: Relentless Doppelganger.

Már a folyamatos live streaming is árulkodó jel, ugyanis egészen különleges csapatról van szó. Két amerikai zenetechnológus, CJ Carr és Zack Zukowski „alapította”, és nem húsvér muzsikusok játszanak, nem klasszikus négyszemélyes felállást hallunk.

deathmetal_ai.jpg

A számokat az alapítók által fejlesztett mélytanuló (deep learning) szoftver, mesterséges intelligencia generálja.

Az idegháló hatalmas mennyiségű bemenő (input) adatból, ezúttal death metal zenékből tanulja meg a mintázatokat, és megállapítja, mely elemek és szekvenciák a legáltalánosabbak, majd újraalkotja azokat.

A két fejlesztő nagyon rövid (pár másodperces) zenei szegmenseket táplál az MI-modellbe, és elkezdődik a tanulási folyamat. A gyakorlás előrehaladtával az MI megtanul tipikus jegyeket azonosítani, aztán egyre részletesebb hangminták generálásába fog. Ezekbe a mintákba a kiállások és a zenei váltások is beletartoznak.

deathmetal_ai0.jpg

Az eredmények eleinte meglepték Carrt és Zukowskit.

„Míg az eredeti adatok újraalkotására állítottuk be, döbbenten csodáltuk a tökéletlenség esztétikai értékét. Szólóénekesek szellemhangok buja kórusává, rockbandák csikorgó kubista dzessz-formációkká, különféle felvételek kereszteződései szürrealista hangkimérákká alakultak át” – nyilatkozták a 2017-es kezdetekről.

Mivel az énekeket széttorzították, és közben levegővételre sincs idő, a szédítő gitártempóra nagyon kevesen lennének képesek, a végeredmény nem hangzik teljesen emberinek, az általános élmény és a hangszerek viszont meggyőzik az avatatlan füleket.

Különféle metal és kísérleti zenekarok (Aepoch, Battles, Meshuggah stb.) számain alapuló tíz különböző Dadabots albumot adtak ki eddig. A legjobb dalokat egy albumra válogatják, céljuk az „emberek kiiktatása a fekete metalból.”

Dadabots egy-egy alkotó diszkográfiáját elemzi minden egyes projekthez, és létrehozza belőle a saját műveit. A live stream például a vancouveri Archspire csapat zenéin alapul.

A jövőben valahogy a hallgatósággal folytatott interakciókat is beépítenék Dadabots alkotásaiba.

süti beállítások módosítása
Mobil