Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Fecsegő robotok mentik meg a depressziósokat?

2021. március 31. - ferenck

A mesterséges intelligenciát egyre gyakrabban használják mentális problémák kezelésére, a mentális egészség megőrzésére.

Az amerikai háborús veteránokkal foglalkozó ReachVet katonai nyilvántartásokat fürkészve, készít havi listát az öngyilkosságra leginkább hajlamosnak tűnő személyekről. Egyes csevegő botok, például a Flow, a Lyssn és a Woebot rendeltetése az olyan hangulati rendellenességek, mint a szorongás vagy a depresszió enyhítése.

Különböző felmérések szerint LGBTQ tinédzserek között kétszer-hétszer nagyobb az öngyilkosságok száma, mint másoknál. Egyértelműen veszélyeztetettebbek – hangsúlyozza az eredményeket ismertető amerikai kormány.

depresszio.jpeg

Az évente százezernél többször hívott Trevor Projekt nonprofit szervezet huszonnégy órás forró vonalat tart fenn a lelki problémákkal küszködő érintett fiatalok számára. Válság-kapcsolat szimulátort használva, gyakoroltatják a tinédzserekkel kommunikáló önkénteseiket. Megmutatják nekik, hogyan beszélgessenek velük, mire vigyázzanak közben.

Az önkéntesek munkáját, az öngyilkosságok megelőzését nyelvi modell is segíti. A fecsegő virtuális robot (chatbot) játssza el a depressziós tizenéves szerepét, míg egy gyakorlott tanácsadó igyekszik meghatározni a probléma okait.

A rendszert a szervezet mérnökei fejlesztették, a Google segítségével. Több modellt teszteltek, mielőtt a GPT-2 mellett döntöttek. 45 millió honlapon trenírozták, gyakornokok és a Trevor Projekt munkatársai közötti szerepjáték átiratán finomhangolták.

Egy másik, szintén a Google közreműködésével fejlesztett modell a bejövő hívások csoportosításában segít. Amikor valaki bejelentkezik a csevegő-rendszerre, hangüzenet kéri meg, hogy írja le az érzelmi állapotát.

A rendszer önkárosításra utaló jelek alapján elemzi a válaszokat, felcímkézi a nagy kockázatot jelentő személyeket, akik elsőbbséget kapnak, hogy minél előbb szaktanácsadóval beszélgethessenek. Minél gyorsabb, annál több életet ment meg.

Mit lát az agyunk?

Az agytevékenység komplex és dinamikus képi megjelenítése mind a gépi tanulás, mind az idegtudományok egyik legnagyobb kihívása. Egy új fejlesztés sokat segíthet.

Mi lehet ijesztőbb a Doctor Who? sci-fi tévéfilmsorozat képeinél? Például a megtekintése közben a nézők agyában végbemenő folyamatok vizuális megjelenítése.

brain2pix.jpg

A holland és német kutatók által fejlesztett Brain2Pix rendszer az ő agytevékenységükről készült szkenek alapján pontosan ezeket vizualizálja.

Az agy egymás melletti idegsejteket használ szintén egymás melletti vizuális jegyek reprezentálására. A konvolúciós ideghálók ideálisak hozzá, mert kiváló teljesítményre képesek térbeli mintázatok megtalálásában, használatában, amelyekkel aztán képeket generálnak. Aktív idegsejtek agyszkeneken megfigyelhető térbeli kapcsolataiból tudják rekonstruálni a kapcsolódó képeket. (A többi ideghálótól nagymértékben különböző, főként képfeldolgozási funkciókkal rendelkező, de videóval és hanggal is elboldoguló konvolúciós ideghálók a bemenő adatot ahelyett, hogy egészében értelmeznék, részleteiben szkennelik le.)

brain2pix0.jpg

A kutatók ilyen megoldással, funkcionális mágneses rezonanciás képkészítésen (fMRI) alapuló generatív ellenséges hálózattal (GAN) dolgoztak képről képre. Az agyban történő véráramlást ábrázoló szkenek az idegsejtek aktivitását jelzik. A GAN-t a Doctor Who fMRI-n, a sorozat 30 epizódjából kigyűjtött képkockákon (frames) és a nézők fMRI-jét tartalmazó adatsoron gyakoroltatták.

Minden egyes 3D szkent az agy különféle területeit megjelenítő 2D képpé konvertáltak. A GAN egymással „ellenséges” két hálójából az egyik, a generátor munkáját folyamatosan bíráló megkülönböztető dönti el, hogy a kép az eredeti sorozatból származik, vagy a generátor munkája. Utóbbit úgy gyakoroltatták, hogy megtévessze a megkülönböztetőt.

Ezt két beépített funkcióval, egyrészt a videó képkocka és a létrehozott kép közötti pixelértékek, másrészt a megjelenítések közötti különbségek minimalizálásával éri el. A generátor hálózati rétegei segítettek az agyról készült szkenek térbeli mintázatainak megőrzésében, és a hosszú visszacsatolásos folyamat (képgenerálás, bírálat, újabb képgenerálás, újabb bírálat, mindaddig, amíg a két kép meg nem egyezik egymással) végén sikerrel járt.

A kutatók a Brain2Pix képeket és a Doctor Who képkockák közötti különbségeket összehasonlítva, minden eddiginél jobb eredményt kaptak.

Mesterségesen intelligens kamerák figyelik a járműveket

Mesterséges intelligenciával működő kamera-hálózatok jóvoltából, az amerikai rendőrség országszerte egyre nagyobb mértékben képes nyomon követni járműveket. A sors különös fintora, hogy sok kamera civilek birtokában van.

Az automatikus rendszámtábla-olvasókat árusító Flock arra buzdítja vásárlóit, hogy hálózatát használva, monitorozzanak „gyanús” járműveket. Lakástulajdonosi szervezetek, üzleti vállalkozások és bűnüldöző szervek az ügyfeleik.

megfigyeles0.jpg

Az ügyfél eldöntheti, hogy adatait megosztja a rendőrséggel, vagy sem, és viszont: a Flock elemzőhálózatán (Total Analytics Law Officers Networks, röviden: Talon) a bűnüldözők is közzétehetik az infókat.

A Talon havonta kb. 500 millió járműről gyűjt szkeneket. A kamerák eltárolják az adatokat, és figyelmeztetéseket küldenek a különféle listákon szereplő autókról. A felhasználók, rendszám mellett, modell, szín és egyéb tulajdonságok, például tetőcsomagtartó alapján végezhetik a keresést.

megfigyeles1.jpg

A Talon adatai a Nemzeti Bűnügyi Információs Központtal, az FBI szökésben lévő, eltűnt személyekkel, lopott járművekkel kapcsolatos információkat tartalmazó adatsorával együtt is használható. Jelenleg több mint 500 amerikai rendőrség fér hozzá.

A Flock szerint a Talon óránként négy-öt eset megoldásában segít. A rendszer csak harminc napig tárolja az adatokat, a rendőrség pedig letöltheti a bizonyítékként szolgáló információkat. A rendszám-azonosítás például a Capitolium elleni január 6-i roham egyes részvevőinek letartóztatásában is segített.

A mesterségesen intelligens kamerák érthető okokból egyre népszerűbbek a bűnüldöző szervezeteknél. Használatuk viszont komoly aggályokat vet fel, ráadásul elég nehéz megállapítani a határokat, hogy alkalmazásuk meddig bűnüldözés, és mikortól a személyiségi jogok (privacy) megsértése.

Rendőrök dolgoztak már például az Amazonhoz tartozó Ring MI-vel működő megfigyelő-kameráival, eredményesen használják a Vigilant rendszámtábla-olvasóját. És nemcsak az USA-ban, hanem más országok bűnüldöző szervei is élnek az MI adta lehetőségekkel.

Ezeket a kereskedelmi megfigyelő-hálózatokat különösebb felülvizsgálat és hozzájárulások nélkül telepítik, és a rendőrség nehezen vonható felelősségre a túlzott használatukért. Bűnesetek felderítése mellett ártatlan emberek millióinak indokolatlan nyomon követése, adataik gyűjtése az eredmény. Az MI ugyan segíthet bűnözők elfogásában, de az ilyen alkalmazásokkal a szabadságjogok is csorbulnak. Az arcfelismerés, a rendszámtábla-olvasás és személyek követésére alkalmas minden más technológia esetén a mostaninál sokkal egyértelműbb, szigorúbb szabályozás kellene.

Egy új algoritmussal leegyszerűsíthető a big data

Legalább egy évtizede a big data korszakában élünk, és a digitálisan előállított adat mennyisége exponenciálisan nő. Például a tudományos kísérletek eredményeit is számokba öntik, gyakran keletkeznek emberi ésszel már-már felfoghatatlan nagyságú, gigantikus adatsorok.

Méretüket elvileg a statisztikailag legrelevánsabb, az igazán lényeges jegyeket megtaláló és kivonatoló algoritmusokkal csökkenthetik. Sok adatsor viszont akkora már, hogy az algoritmusok többsége nem alkalmazható rájuk.

Amerikai kutatók pontosan az óriási adatsorokra fejlesztettek egy, a lényeget közvetlenül kiemelő algoritmust. A kivonatolás sok ad hoc gépitanulás-módszerrel megoldható, de az új modell a többinél megalapozottabb elméleti alapokon áll.

bigdata.jpg

A gépi tanulás egyik ága komponenselemzéssel, nyers adatok jegyeinek azonosításával és kivonatolásával foglalkozik. Az adatsorok dimenzióinak csökkentése a célja. Az azonosítást követően a jegyeket az adatok annotált mintáinak elkészítéséhez, vagy más gépitanulás-feladatokhoz, például osztályozáshoz, klaszterezéshez, vizualizációhoz vagy modellezéshez használják fel.

Ilyen típusú algoritmusokat már a múlt század végén is próbáltak fejleszteni, a mostani kor viszont a big data, a több tízezer tulajdonságjeggyel rendelkező sokmillió adatpont miatt teljesen más. Ezeknek a masszív soroknak az elemzése humán programozók számára bonyolult és időigényes, az emberi agy információfeldolgozását bizonyos szintig szimuláló mesterséges ideghálókkal (ANN, Artificial Neural Network) viszont megoldható. Tucattól többmillió neuronból állhatnak, egységeik réteg-sorozatokba rendezik, a háló próbál értelmet adni az adott információnak.

Sokféleképpen használhatók, de főként az adatra leginkább jellemző tulajdonságok azonosítására, és az információ alapján, különböző kategóriákba rendezésére, osztályozására alkalmazzák.

Az Alexa, a Siri vagy a Google Fordító is mesterséges ideghálókkal működik: beszédminták, kiejtések és hangok felismerésére gyakoroltatták be őket.

De nem minden jegy egyformán szignifikáns, ezért sorrendbe állíthatók. Eddig speciális ANN-eket használtak hozzájuk, de még ők sem tudták pontosan lokalizálni a jegyeket, illetve kideríteni, hogy melyik fontosabb a másiknál. Elvileg lehetséges volt, gyakorlatilag nem.

Intelligensebb algoritmusoknak ezeket kell közvetlenül észlelniük, és a mostani fejlesztés pontosan ezt célozza. Hatékonyabb lesz vele az adatfeldolgozás, és óriási adatsorokkal is elboldogul, tényleg leegyszerűsíti a big datát. Egyelőre viszont csak egydimenziós mintákra alkalmazható, a kutatók azonban fejlesztik tovább, hogy sokkal komplexebb adatstruktúrákat is tudjon kezelni.

Nagyon sebezhető az amerikai elektromos hálózat

Az Egyesült Államok elektromos hálózatának elosztórendszerei sebezhetők, és nagyon ki vannak téve cybertámadásoknak – derül ki a Kormányzati Elszámolási Hivatal (GAO) friss beszámolójából.

Megállapították, hogy az Energiaügyi Minisztérium cyberbiztonsági stratégiája túlnyomórészt a termelési és az átviteli rendszerekre összpontosított eddig. Ajánlásukban az elosztórendszerek kockázataira figyelmeztetnek, sokkal többet kellene foglalkozni velük.

us_elektromoshalozat.jpg

Mivel a fogyasztókhoz ezek a rendszerek juttatják el közvetlenül az áramot, egyértelmű, miért aggasztó a támadásoknak való kitettségük. Ráadásul a megfigyelő és a vezérlőtechnológiáktól való egyre markánsabb függésük miatt, egyre nagyobb a veszély.

Az ipari vezérlőrendszerekkel folyamatosan nőnek a kockázatok. További probléma, hogy ezek a rendszerek lehetővé teszik a távolból való hozzáférést, azaz rossz szándékú szereplők is rákapcsolódhatnak. A szövetségi cyberbiztonsági szabványok nem vonatkoznak rájuk. Szerencsére azért vannak kivételek, de azok inkább a minisztériumtól független, egyedi esetek.  

„Ugyanakkor, szinte senki nem fogta fel teljesen az ilyen jellegű támadások hatásának potenciális léptékét” – áll a beszámolóban.

A minisztérium tervei nem fedik le teljesen az elosztóhálózatokban rejlő veszélyeket – vonták le a következtetést a szerzők. Például az ellátási láncokkal kapcsolatos sérülékenységükkel sem foglalkoznak. Illetékesek szerint azért nem, mert a termelési és az átviteli rendszerek veszélyei a prioritás.

Az elosztórendszerek kihagyásával a tervek korlátozottak maradnak, szövetségi szinten kis mértékben fogják támogatni biztonságosabbá tételüket. Minisztériumi alkalmazottak el is mondták, hogy nincs tudomásuk a veszélyeket felmérő kutatásokról. A hivatalos álláspont szerint a másik két rendszer megtámadása súlyosabb következményekkel járna. A beszámoló viszont egyértelműsít: egyes ellátórendszerek sérülésének az egész országot érintő hatásai lesznek. Koordinált támadással akkor is lehetnek több térségben áramkimaradások, ha az nem érinti a központi rendszert.

Hangklónok árasztják el a médiát és a szórakoztatóipart

Egyre többen használnak mesterségesintelligencia-módszereket színészek hangjának utánzására. Ezek a technológiák a képes, mozgóképes kamuképek vagy „mélyhamisítványok” (deepfakes) audió megfelelői.

Játékfejlesztők és marketingesek egyrészt pénzmegtakarításból, másrészt termékeik még immerzívebbé tétele miatt klónoznak hangokat.

hangfake0.jpg

Az erre specializálódott brit Sonantic startup például bejelentette, hogy húszpercesnél rövidebb gyakorlóadatból bármely színész hangját reprodukálják. Technológiájuk lehetővé teszi médiakészítők számára, hogy fokozzanak, változatosabb intenzitással adjanak vissza különböző érzelmeket, például dühöt, boldogságot vagy félelmet. A cég egyébként az így szerzett bevételeket megosztja az eredeti hang tulajdonosával.

hangfake1_1.jpg

Az amerikai Replica Studios az angol fonetika lényegét lefedő, színészek által felolvasott húsz mondaton gyakoroltatja rendszerét. Az általuk módosított Cyberpunk 2077-ben a nem játékos karakterek név szerint szólítják meg a játékosokat. A cég a bevételeket ugyanúgy megosztja a színészekkel, mint a Sonantic.

Az MSCHF marketingcég Gucci Mane rapper hangját szintetizálta, és a hasonmás olyan klasszikusokat mesél el, mint a Büszkeség és balítélet vagy a Don Quijote.

A szórakoztatóipar nagy része rendezte a színészek hangja feletti jogokat, sok amatőr tartalomgyártó viszont előszeretettel alkalmazza a technológiát, és jogi szempontból gyakran téved ingoványos terepre. Tim McSmythers kutató például a közösségi médiában futó Speaking AI-ban hírességek hangját utánzó, begyakoroltatott gépi modelleket használ, és közkedvelt film- vagy televízió-jelenetekbe illeszti azokat. Így fordulhatott elő, hogy Homer Simpson magyarázott el egy legendát Anakin Skywalkernek. A 15.ai webes alkalmazás pedig játék- és tévésorozat-karakterek remek minőségű hangját „kölcsönzi” egyedi párbeszédekhez.

hangfake.jpg

A hangklónozás a kamuképekhez és videókhoz hasonlóan kreatív energiákat is felszabadít, praktikus is, például a színészek bekapcsolódása előtt könnyebb a párbeszédeket letesztelni, de a mellékszereplők is gyakrabban szóhoz juthatnak így. A technológiával természetesen vissza is lehet élni, sajnos ez elkerülhetetlen.

Dubai felett esőt fakasztanak a drónok

Szokatlan módszerrel, csúcstechnológiát használva próbálnak több esőt fakasztani az égből a közismerten száraz éghajlatú, nyaranta szélsőségesen meleg, sivatagos Egyesült Arab Emírségekben. Ember nélküli légi járműveket, azaz drónokat repítenének az égbe, amelyek ott elektromos árammal gerjesztenének feszültséget és ennek következményeként, csapadékot a felhőkben.

A felhőkbe repülő, azokat elektromossággal vízcseppekké alakító drónokat az angol Reading Egyetemen fejlesztették. Az egyik kutató, Maarten Ambaum szerint úgy összetapadnának a felhőkkel, „mint fésű a száraz hajjal.”

uae.jpg

Ha a technológia beválik, hozzájárulhat olyan városok szűkös vízellátásához, mint például Dubai, enyhíthet a sivatagosodás hatásain, lassíthatja a klímakatasztrófát, de új korszak kezdetét is jelentheti: az ember kontrollálja az időjárást.

Az Emírségekben már most is használnak a természetes vízképződést befolyásoló, páralecsapódást kiváltó, felhőket létrehozó technikákat, a közöttük zónázó drónok viszont még nagyobb kontrollt biztosítanának az országnak a víz körforgása felett.

uae0.jpg

„Az elektromos töltésű emissziós műszerekkel és az egyedire kialakított szenzorokkal felszerelt drónok alacsonyan fognak repülni, elektromos töltést juttatnak a levegőmolekulákba, amelyeknek ösztönző hatással kell lenniük a csapadék-képződésre” – nyilatkozta az Emírségek „esőfakasztó” tudományos kutatóprogramját vezető Alva Al-Mazroui.

Az időjárást megváltoztató rendszerek megítélése elég ellentmondásos. Évtizedek óta léteznek felhőket létrehozó megoldások, de szakértők figyelmeztetnek: ezekkel az eljárásokkal vissza is lehet élni. Aggódnak a geopolitikai következmények miatt, hogy például Kínában mire használják vagy használhatják őket.

Az Emírségek esetében mindenesetre nem kell tartaniuk visszaéléstől vagy geopolitikai következményektől. Egyértelmű, hogy a drónok milyen célt szolgálnak: segítik a sivatagi városok akadozó édesvíz-ellátását.

Régi fényképeket kelt életre a gépi tanulás

Az izraeli MyHeritage (örökségem) startup Deep Nostalgia szolgáltatása lehetővé teszi felmenőink arcképeinek animálását. Régi fotókon, tehát állóképeken megörökített személyek mozgóképeken elevenednek meg.

A magyarul is működő szolgáltatás igénybevételéhez fiókot kell nyitnunk. Az ingyenes opció öt kép animálását teszi lehetővé, a fizetős változat annyiét, amennyit csak akarunk, nincs korlátozás.

A Deep Nostalgia gépi tanulással működik. Feltöltjük a fényképet, és javít a minőségén, növeli a felbontást.

myheritage0.jpg

A fotót a D-ID Live Portrait technológiája módosítja: a pixeleket úgy alakítja át, hogy össze lehessen kapcsolni őket egy előre felvett videó mozgásaival.

A szolgáltatás több rövid klipet kínál, amelyeken az adott személy mosolyog, pislog, elfordítja a fejét. A felhasználó kiválaszthat közülük egyet, vagy egy szelektált videót a feltöltött képen látható arc beállításának megfelelően alakít át. Az automatizált átalakítást az algoritmus végzi.

A MyHeritage a mélytanulással (deep learning) működő DeOldify rendszerrel színezi ki, „fiatalítja meg” a régi fekete-fehér fotókat. Archív felvételek színessé varázslása nem újkeletű, például a Neural Love cég a mesterséges ideghálókkal foglalkozó Denis Shiryaev 1911-es New Yorkot ábrázoló színes videóját – és a mögötte álló technológiát – dobta piacra.    

A Deep Nostalgia a mesterséges intelligencia egyik legújabb alkalmazása, a múlt életre keltésével kihozza a felhasználóban rejlő amatőr levéltárost.

A szolgáltatás üzletileg jól jövedelmezhet, hiszen érzelmileg mindenkinek sokat jelent, ha esetleg csak hírből és képekről ismert felmenőit látja néhány pillanatra megelevenedni. Kicsit morbid is, de a mai kamukép és kamuvideó (deepfakes) világban lassan már semmin nem lepődünk meg.

Hova vezethet a folyamat? Képzeljük el, hogy ükunokáink ma nehezen elképzelhető mobil mindeneseiken a rólunk készült videók hologramjaival kommunikálnak, de a kommunikáció több érzékszervükre, például a tapintásra és a szaglásra is kiterjed, mert az akkori mesterséges intelligencia nyilván képes lesz rá.

Az üzleti világot is meghódítja a mesterséges intelligencia

A Stanford Egyetem éves MI Index beszámolói a mesterséges intelligencia aktuális trendjeit dokumentálják, a legújabb például magánszektorbeli térhódítását és az USA dominanciájának eltűnését emeli ki. Az anyagok akadémiai kutatások, befektetői iratok és más források felhasználásával készülnek.

A mostani indexből többek között megtudjuk, hogy a koronavírus-járvány visszafogó hatása ellenére, magánbefektetők 2020-ban 9,3 százalékkal több támogatást adtak mesterséges intelligenciával kapcsolatos k+f tevékenységre, mint 2019-ben. A leglátványosabb növekedés, érthető okból, a gyógyszerfejlesztésben tevékenykedő MI-knél tapasztalható, a 2019-es 2,5 milliárd dollár 2020-ban közel meghatszorozódott (13,8 milliárd). A szakterületi rangsorban az önvezető autóké a második, az oktatási alkalmazásoké a harmadik hely.

A magánszektor növekvő érdeklődése azért is fontos, mert így több praktikus alkalmazás várható, a kutatások nagyobb eséllyel hasznosulnak mindennapi termékekben.

aibusiness.jpg

Ezt a trendet erősíti, hogy az észak-amerikai friss MI PhD-sek 65 százaléka akadémiai vagy kormányzati közeg helyett inkább magáncégeknél választott állást. Összehasonlításként: 2010-ben a 44 százalékuk döntött így.

2020-ban Kínában végezték a legtöbb MI-kutatást, leggyakrabban kínai tanulmányokra hivatkoztak. Ezzel szemben az Egyesült Államok indította a legtöbb egyetemi és mesterképzést, ugyanakkor az USA-ban PhD-ző diákok közel két harmada külföldi volt.

Amerikai kongresszusi és szabályozási beszámolókban, a 2019-20-as ülésszakban 486 alkalommal említették a mesterséges intelligenciát, ami az előző ülésszakhoz képest háromszoros növekedés volt. Ez azt is jelenti, hogy a technológia jövőjében nyilvánvalóan nagyobb szerep jut a törvényhozóknak.

Nem minden mutató pozitív, mert a világ számítástudományi egyetemein a hallgatóknak csak a 16 százaléka nő, például Észak-Amerikában az utóbbi tíz esztendő PhD-jeinek mindössze 18 százaléka nőké. Egy másik elgondolkoztató szám: 2019-ben az afroamerikaik és a hispanoamerikaik az új PhD-sek mindössze 2,3 és 3,2 százalékát adták.

Bármilyen kameraszöget előállít a mesterséges intelligencia

A filmrendezőket hamarosan nem korlátozzák többé a kamera-beállítások, mert egy új technikával a színészek tetszés szerinti szögből megörökíthetők. Kínai és amerikai kutatók közös munkája, a Neural Body ugyanis személyekről mindössze néhány szögből készült felvétel alapján generál új beállításokat.

Egy korábbi módszerrel (NeRF) 16 állókamera képeiből kivonatoltak, majd új szögbe szintetizáltak egy 3D modellt. A mostani fejlesztés megközelítése hasonló, viszont ezúttal nemcsak a különféle beállításokkal, hanem az azokhoz társítható video-képkockákkal (frame) is dolgoznak. Így valósulhat meg, hogy négy kamera inputja alapján a rendszer bármilyen szögből elkészíti a színész képét, és a beállítás az egymást követő képkockákon sem csúszik el.

kameraszog1.jpg

A Neural Body 3D modellt hoz létre, pozícionálja, és meghatározza a bármely szögből kidolgozandó színeket. A kutatók 21 beállításból felvett kilenc jelenetet gyűjtöttek össze adatsorrá. Egy adott jelenet friss szögének szintetizálásához tanították be a rendszert – véletlenszerűen kiválasztott négy beállításon gyakoroltatták, a többit pedig letesztelték.

kameraszog.jpg

A videokockákat előre feldolgozták, hogy Neural Body kivonatolja belőlük az embert, és eltávolítsa a hátteret. Ezt követően kockánként módosítható humán modellt rendeltek a képhez. A folyamattal hálómodell jött létre, és minden csúcsához gyakoroltatható vektort rendeltek.

kameraszog0.jpg

Egy 3D adatpontokra specializált idegháló megtanulta, hogyan térképezze fel a vektorokat, míg adott beállítások minden egyes pixelének színét úgy döntötték el, hogy követték a kamerából a pixelre irányuló fénysugarat, és a rendszer ez alapján végezte a színeket előrejelző paramétereket definiáló számításokat, amelyeket pixelenként megismételt.

Az ideghálót és a hálómodelleket együtt gyakoroltatták, hogy minimalizálják az előrejelzett és a tényleges kép közötti eltéréseket. Az eredménnyel elégedettek, Neural Body elődjénél sokkal jobban teljesített.

A rendszer egyelőre csak két karakter képét készítette el, a gyakorlatban (filmben) viszont jelenetbe kellene rendezni őket. A csak beállításokat integráló megközelítést használó képkocka-alapú módszer azonban mindenképpen előnyösebb az eddigieknél, mert a rendelkezésre álló összes információ feldolgozható vele. Kérdés persze, hogy hova fejlődik a technológia.

süti beállítások módosítása