Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

2022 a szintetikus képek éve volt

2022. december 29. - ferenck

2022 a mesterségesintelligencia-történelem egyik szó szerint is leglátványosabb éve volt. Szinte emberi szintű szövegeket, képeket és kódokat generáló rendszereket ismertünk meg. Ezek a rendszerek komoly kérdéseket vetnek fel a kreativitás jövőjével kapcsolatban.

Vegyi és fizikai folyamatokat megfejtő modellek tudományos felfedezésekhez vezettek, míg a kormányok igyekeznek egyre inkább ellenőrzés alatt tartani az ezeket az újításokat lehetővé tevő mikroprocesszorokat.

20221.jpg

A sok újdonság közül is kiemelkednek a 2022-es innováció legfőbb terepét jelentő képtechnológiák. Az MI által készített képek virálissá váltak, komoly vitákat kavartak, és még több befektetői pénzcsapot nyitottak meg.

A szövegből képet generáló (diffúziós) rendszerek új nemzedéke rengeteg kísérletre inspirált felhasználót és fejlesztőt, néhány szavas szöveges leírásokból (promptokból) döbbenetes művészi erejű, fotorealisztikus fantáziaképek, alkotások születtek. Vállalatok gyorsan le is csaptak a technológiára, az MI-s képgenerálást alkotó/editáló szoftvereikbe integrálták.

2022.jpg

Könnyen kezelhető felhasználói felületük, szórakoztató outputjuk, nyílt „természetük” miatt 2022-ben ezek a képalkotó modellek váltak az MI nyilvános arcává.

A Microsoft által az exkluzív kereskedelmi jogok ellenében anyagilag támogatott OpenAI DALL.E 2-je áprilisban jött ki, másfél millióan bétatesztelték, szeptemberben tették széles körben hozzáférhetővé. A redmondi cég AI, mint szolgáltatást (AI-as-a-Service) integrálta Azure platformjába.

20220.jpg

Júliusban a viszonylag egyszerűbb Craiyon képei árasztották el a közösségi tereket, majd jött a Stability AI nyílt forrású Stable Diffusion modellje, novemberben pedig már a több mint százmillió dollár friss befektetői tőkével jutalmazott 2.0 változat. Az Adobe, a Getty Images és a Shutterstock saját termékeikbe és szolgáltatásaikba integráltak képgeneráló modelleket.

Mivel ezek a rendszerek a megadott promptok miatt drasztikusan különböző outputokat hoznak létre, többen rájöttek a szöveg alapú utasítások kidolgozásában rejlő üzleti potenciálra. A PromptBase online piacteret is nyitott erre a célra.

20222.jpg

A sikernek megvannak a hátulütői is. Mivel a gyakorlóképeket a világhálóról gyűjtik össze a fejlesztők, bőven akadnak közöttük elfogultak, sőt, sértők is. A művészi avatárokat készítő (egyébként sikeres) Lensa AI fotószerkesztő app több felhasználója, elsősorban nők a túlzottan „szexualizáló” képekre panaszkodtak. Az ArtStation online művészi közösség – a szellemi tulajdon elsajátítását megakadályozandó – saját szöveg-text rendszert dolgozott ki, amelyet viszont sok művész, a nehezen kidolgozott stílusokat pillanatokon belül lemásoló program miatt bojkottál.

2023-ban a trend folytatása várható, állóképek után a mozgóképeken és tárgyakon lesz a sor, ezt vetítik előre a Google és a Meta szövegből videót generáló modelljei, illetve az OpenAI szövegből 3D objektumokat varázsoló rendszere.

A web feltalálója megvédené a személyes adatainkat a techóriásoktól

Hosszú utat tett meg, rengeteg változáson ment keresztül az internet azóta, hogy a web feltalálója, Tim Berners-Lee 1989-ben elkezdte ezirányú kutatásait. Manapság egyre nagyobb a személyes szféra, a privacy védelme iránti igény, és egyre gyakrabban sértik meg azt. A feltaláló szerint itt az ideje, hogy visszaköveteljük a csak minket megillető adatokat.

Berners-Lee és John Bruce vezérigazgató Szilárd Tok, más néven Személyes Online Adattár startupja lehetővé teszi adataink egyetlen központi helyen történő tárolását, és onnan ellenőrizhetjük, hogy kik és milyen alkalmazások férhetnek hozzájuk. Most ugyanezek az adatok szanaszét a világhálón, változatos appokon és honlapokon találhatók.

tim_bernerslee.jpg

A felhasználó néhány szolgáltatótól kaphat Tokot. Ezeket webszolgáltatások, mint például az Amazon hosztolja, de ha rendelkezünk a szükséges technológiai ismeretekkel, akár mi is megtehetjük. Az „ön-hosztolás” azért nagyon vonzó, mert személyes adataink feletti kontrollunk így a legteljesebb.

A tokok nemcsak az állammal és a nagyvállalatokkal, hanem a hackerekkel szemben is védelmet nyújtanak.

„Mindannyian rájövünk, hogy a web értékét a rajta elérhető adatok jelentik. Az új világban, amikor a sajátjainkra vigyázunk, a „nagy silókban” nem maradnak meg, mert azok jövedelmező támadások célpontjai” – jelentette ki Berners-Lee.

Platformjukat, Berners-Lee 2017-ben indult Inrupt technológiáját az Egyesült Királyság Nemzeti Egészségügyi Szolgálata és Belgium Flandria régiójának kormánya egyaránt teszteli, az utóbbi a tokokat arra próbálja alkalmazni, hogy a lakosság döntse el, miként kívánja használni személyes adatait.

A BBC októberben vezette be a tokokon alapuló kísérleti szolgáltatását, amelyben sok barát egyidőben streamel programot. Amikor a „parti” véget ér, a felhasználó láthatja, milyen adatok generálódtak, például ki milyen programot nézett, ki csatlakozott hozzá, ki törölte, ki szerkesztett rajta. De úgy is dönthet, hogy a BBC használja fel az egészet.

A BBC szerint az adatkezelés radikálisan új megközelítéséről van szó, Berners-Lee pedig a web új iterációjának, a Web 3-nak a születését látja benne.         

Robotok szállítják házhoz az Uber Eats-nél rendelt ételeket Miamiban

Ha Miamiban élünk, és legközelebb az Uber ételszolgáltatásától, az Uber Eats-től rendelünk valamit, mondjuk, a karácsonyi ebédet, elképzelhető, hogy a kaját nem húsvér ételfutár, hanem robot szállítja ki.

A szolgáltatás december tizenötödikén indult, és a géppel történő házhozszállítás a fuvarozócég és a Cartken robotikai vállalat friss partnersége miatt vált lehetővé. A megrendelőt ugyanúgy értesítik, hogy az étel úton van, mint eddig, aztán viszont másra is felhívják a figyelmét.

Az üzenetből megtudja, hogy távolból irányított robot közeledik felé az utcán, az appban képeket is lát róla. Ha megérkezik, a megrendelő okostelefonjával „felnyithatja” a gépet, és egy biztonságos rekeszből kiveheti az ételt. (Persze, ha semmiféle robotot nem akar, a humán ételfutárral történő szállítás mellett is dönthet.)

ubereats.jpg

A Cartken hatlábú robotját többféle szenzorral és kamerákkal szerelték fel, ezek biztosítják az ütközések elkerülését, és hogy megtalálja a legkevesebb kockázattal járó utat. Külső és belső terekben egyaránt működőképes.

A robotikus házhozszállítás bejelentése újabb példa az Uber külsős cégekkel való, futurisztikus high-tech megoldásokat kínáló együttműködésére. Nemrég például a humán vezető nélküli technológiákon dolgozó Motionel-lel léptek partnerségre, hogy önvezető járműveket kínáljanak Las Vegasi használatra.

Az Uber két éve, pénzügyi és jogi nyomásra értékesítette önvezető autó kezdeményezését, és ezek a partnerségek egyértelműen jelzik, hogy házon belüli megoldások helyett inkább „külsősökre” fektetik a technológiai hangsúlyt.

Noah Zych, a vállalat autonóm mobilitás és kiszállítás részlegének globális vezetője szerint a Cartkennel való együttműködés az automatizált és autonóm technológiák területén tett erőfeszítéseik újabb mérföldköve.

Ezekkel a partnerségekkel kísérletet tesznek, hogy kisebb mértékben függjenek az utasokat és az ételt szállító független beszállítókból álló hatalmas járműparkjuktól. Azért is dönthettek új megoldások mellett, mert a korábbi üzleti modell számos jogi problémát vetett fel.

A Cartken szerint a partnerségből a helyi kereskedők és közösségek egyaránt profitálhatnak: növekszik a szállítási kapacitás, a robotok környezetbarátok, és a forgalmi dugók elkerülésében is segítenek.

Júniustól a Grubhubbal szintén együttműködnek, robotjaik az USA egyes egyetemi és főiskolai kampuszaira szállítják a megrendelt dolgokat. Az Uberrel kötött együttműködés az első alkalom, hogy kampuszokon kívüli szállító appal közösen dolgoznak.

Falon mászik Marvel, a dél-koreai robotkutya

Szintet lépnek a robotkutyák.

A KAIST (Korea Advanced Institute of Science and Technology) kutatói különleges négylábú robotot fejlesztettek. A tetszetős külleműnek nem nevezhető gép felfelé mászik vas-, acélfalakon, és a mennyezeteken is elboldogul. Mindet úgy megmássza, mint az óriásrovarok.

marvel.jpg

MARVEL a neve, de ezúttal se képregényekre, se filmekre ne gondoljunk, mert a szó a „mágnesesen tapadó robot a sokoldalú és gyors mozgáshoz” (Magnetically Adhesive Robot for Versatile and Expeditious Locomotion) rövidítése, a szavak első betűiből áll össze.

Alig több nyolc kilónál, és harminchárom centiméter hosszú, és nem magasabb egy játékbabánál.

marvel0.jpg

Nem ő az első faljáró robot, korábban is fejlesztettek hasonló rendeltetésű gépeket, de a többivel ellentétben, kerekek, fogantyúk, tapadókorongok és propellerek helyett mágneses lábakkal viszi, hajtja magát felfelé.

Tervezői elmondása alapján nagyon ügyes, meggyőzően navigál íves felületeken, például rozsdás fémtartályokon. Ez részben az elektromágneses lábaknak, illetve egy különleges elasztomernek (elasztikus polimernek) – okos anyagnak – köszönhető. Részben abból alakították ki.

Lábügyessége miatt valószínűleg sokan meg fogják vásárolni. A fejlesztők egyrészt ipari környezeteket, másrészt magasságuk miatt ember számára nehezen megmászható és veszélyes közegeket emelnek ki a potenciális alkalmazási területek közül: hidakat, hajókat, toronyházakat.

MARVEL gyors is, nehezebb terepen 0,3 méter per másodperc a maximális sebessége. Elkerüli a kitüremkedéseket, átlépi az akadályokat, például kisebb-nagyobb réseket. Könnyű felületeken, mint a sima falak és a plafon másodpercenkénti 0,5-0,6 méteres sebességre is képes. Ő az eddigi leggyorsabb vertikális és fordított mozgású falmászó robot.

A fejlesztők szerint bőven akad finomítanivaló rajta, mert el kell még sajátítania a nagyon szabálytalan és meredeken ívelt felületeken történő felfelé mozgást is.

Újratervezi önvezető autóját az Apple

Nyílt utakon egyelőre csak néhány teljesen önvezető autó közlekedik: kínai és amerikai robottaxik.

Az utóbbi pát évben az iparágnak komoly problémákkal kellett szembenéznie. A Ford leállította a Volkswagennel közös Argo projektet, a Tesla állítólagos teljes egészében önvezető járgányába pedig, mint kiderült, mégiscsak kell ember. A további fejlesztésekhez folyamatosan figyelembe kell venni, hogy ezeknek az autóknak, legyen havazás, vagy útépítés, mindig és minden körülmények között biztonságosan kell közlekedniük.

Az Apple 2025-re tervezte a Titan kódnevű önvezető jármű bevezetését, idén viszont rájöttek, hogy kicsúsztak a határidőből, és az autonóm funkciókat is át kell értékelniük.

apple.jpg

Az új ütemezés alapján a prototípus 2024-re készül el, a tesztekre 2025-ben kerül sor, míg a nagy bemutató 2026-ban lesz. A megcélzott százezer dolláros bevezető ár húszezerrel kevesebb, mint az eredetileg tervezett.

A nagyvállalat jelenleg több amerikai szövetségi államban, Lexus SUV-okon teszteli a Titan félautomata rendszerét.

Azaz, az Apple újratervezi a közel egy évtizede fejlesztésben lévő autonóm autót. Eredetileg úgy képzelték el, hogy minden körülmény között teljesen automata lesz, a mostani tervek szerint viszont – valamilyen szinten – humán vezető is működtetheti.

Az első tervekben az utastér összes ülése a középpont felé nézett, a járműben nem lett volna kormánykerék, gázpedál. A mostaniakban viszont már az emberi irányítás is megvalósítható.

A jármű autópályákon autonóm módban fog közlekedni, miközben a vezető például filmet nézhet, videojátékkal szórakozhat. A rendszer figyelmezteti, ha manuális irányításra van szükség, mert mondjuk, pocsék az útminőség, vagy rossz idő van.

Az önműködő rendszer lidar-, radar- és kameraadatokat használva navigál. A Denali nevű fedélzeti processzor hajt végre egyes feladatokat, míg a többit az Amazon Webszolgáltatások kezeli a számítási felhőben. Sürgősségi esetekben távoli operátorok vehetik át az önvezető autó irányítását.

A teljesen önvezető autók kereskedelmi forgalmazása látványos, de az időben egyre tolódó cél. Az Apple a biztonság kedvéért meghozott döntése arra enged következtetni, hogy a belátható jövőben (majdnem) mindig lesz humán vezető a járműben.

Hogyan moderálja a mesterséges intelligencia a közösségimédia-tartalmakat?

Milyen szerepet kellene játszania a mesterséges intelligenciának a napi sokmillió közösségimédia-poszt, komment, üzenet moderálásában? – teszi fel a kérdést Andrew Ng, a gépi tanulás egyik legismertebb szakértője.

Annyi a poszt, üzenet, hogy mennyiségük automatizálás nélkül kezelhetetlen, ugyanakkor különbséget kell tenni a mérsékletes moderálás és az elfogadhatatlan cenzúra között.

Az MI egyrészt hasznos segédeszköz a moderálási politika bővítésében, másrészt viszont nem kezeli a lényeget: mi megengedhető, és mi nem? Ezt a kérdést mesterséges intelligenciának és embernek egyaránt nehéz megválaszolnia.

socialmedia_content.jpg

Például azért, mert maga a nyelv is többértelmű, ellentmondásokkal teli. Ha azt mondjuk, hogy „ne hagyjuk, hogy ezt is megússzák”, az ugyanúgy lehet erőszakra való felszólítás, mint az igazság vágya. Vagy „az oltásnak vannak veszélyes mellékhatásai” ugyanúgy lehet tudományos tény, mint félretájékoztatás.

A szavak jelentése, értelmezésük személyről személyre változik. Egyiket-másikat csak egy szűk csoport érti, például tudományos csapatok mások számára ismeretlen rövidítéseket használnak, de gyűlöletcsoportok és bűnözők is kódolt szövegekkel álcázzák tevékenységüket.

Ha emberek másként értelmezik ugyanazokat a szavakat, akkor hogyan gyakoroltassuk az MI-t, hogy észrevegye a különbségeket? Ha egy szöveg jelentése nem egyértelmű, akkor az értelmezésére sincs magától adódó gépi stratégia. Vagy mutassuk meg A-nak, B-nek viszont nem? Esetleg a „szerző” szándéka alapján moderáljuk ki?

Egyik megoldás sem kielégítő.

Mindezek után, az MI-rendszer felépítéséhez szükséges adatok kiválasztása is problémás, mert maga a válogató is többféleképpen értelmezheti azokat. Ahány közösség, annyiféle értelmezési opció, és ez így sajnos teljes mértékben követhetetlen.

De még ha a jelentés egyértelmű is, attól a helyes döntés meghozása változatlanul nehéz.

Szerencsére a közösségimédia-platformok aszerint válogathatnak opciók között, hogy az üzenet mennyire kirívó, milyen szintű bizalmatlanság után problémás.

Az MI úgy dönthet, hogy kisebb nyilvánosságnak mutatja meg, figyelmeztető címkét tesz melléje, vagy előbb ideiglenesen, utóbb végleg felfüggeszti a posztolót. A potenciális következmények megteremthetik a felhasználók – és a társadalom, hangsúlyozza Ng – elhallgattatása és védelme közötti egyensúlyt.

Mindezen hiányosságok ellenére, az MI jobbá teszi a közösségi médiát. Képzeljük el, mekkora káosz lenne, ha e-mailjeinket nem szűrnék a levélszemétre szakosodott mesterséges intelligenciák. Ehhez hasonlóan, a leginkább spam és toxikus közösségimédia-tartalmak kiszűrésében is kulcsszerepet játszanak.

Azonban a moderáció okozta kihívás nagysága egyelőre meghaladja az MI képességeit. A kihívás nagy, nyílt vitákkal juthatunk el a megoldásig, és addig, hogy nincs tökéletes megoldás.

A közösségi média előnyeinek maximalizálása a lényeg – összegez Ng.

Arcfelismerés után itt a fülfelismerés

A Georgia Egyetem kutatásának eredményeként, arc és ujjlenyomat után/helyett hamarosan a fül alapján is azonosíthatnak majd személyeket. A testrész ugyanolyan egyedi, mint a másik kettő, és még az egypetéjű ikreknél is lehetnek különbségek.

A fül az életünk során viszonylag változatlanul maradó kevés emberi testrész egyike. Egyedül a fülcimpa módosulhat szignifikáns mértékben. Ez a tény azt jelenti, hogy az arc- és az ujjlenyomat-felismerés nagyon hasznos technológiai alternatívája lehet.

A felsőoktatási intézmény kutatói által fejlesztett rendszer, a teszten használt adatsor és modell függvényében, akár kilencvenkilenc százalékos pontossággal is képes dolgozni.

fulfelismeres_1.jpg

A szoftver az arcfelismeréshez hasonlóan működik. Ha új telefont veszünk, vagy ujjlenyomattal vagy arccal kell regisztrálnunk, ujj esetében akár többször meg kell ismételni, míg az arcunkat többféle irányba mozgathatjuk, tarthatjuk.

A telefon több képet rögzít a személyről, és (ideiglenesen) tárolja azokat. Bejelentkezéskor, ahogy az „élő” ujjlenyomatot összehasonlítja a tárolttal, ugyanúgy tesz a füllel is.

A technológiával korábban is próbálkoztak már, de talán azért nem terjedt el, mert a másik kettő (és az írisz is) felhasználói szempontból sokkal kényelmesebb.

Nehezebb fülszelfit készíteni.

A szoftver fülfelismerő algoritmussal dolgozik, az értékeli ki a szkeneket, és dönti el, hogy alkalmasak-e az automatizált párosításra. Sokféle fül-adatsoron, változatos fülpozíciókkal gyakoroltatták.

Két különféle adatsoron tesztelték. Az egyiken 97,25, a másikon 75,11 százalékot ért el, míg a korábbi legfejlettebb fülazonosító 58,72 és 45,8 százalékot teljesített.

Zsúfolt képekkel szintén működik. A fejlesztők változatos – torzított, homályosabb, kontrasztosabb, világosabb, „zajosabb” – képeken több modelljüket tesztelték.

A szoftver telefonos azonosítás mellett más biztonsági alkalmazásokban, kameraalapú rendszereknél, például reptereken is használható. Algoritmusát továbbfejlesztik, hogy hőképekkel és sötét környezetben is elboldoguljon, ahol hagyományos kamerákkal nehéz jó fotót készíteni.

Drónok a kihalás szélén álló növényeket találtak

A Hawaii Nemzeti Trópusi Botanikus Kert (NTBG) nonprofit szervezet és a szövetségi állam Erdészeti és Vadvédelmi Osztályának tudósai drónokat használnak kihalás szélén álló növények felkutatására. Ezek a növények sziklákon vagy más, nagyon nehezen megközelíthető helyszíneken találhatók.

A növényvilág helyzete napjainkban egyáltalán nem bíztató, mert minden öt fajtából kettő veszélyeztetett. Szigeteken gyakran még rosszabb, mert nagyon sok a csak az adott helyen és sehol máshol nem élő (endemikus) faj.

dronok_hawaii_1.jpg

Ben Nyberg, az NTBG kutatója és a kanadai Outreach Robotics közösen fejlesztette a drón alatt kábelen lógó Mamba (többrendeltetésű, két irányban aktivált légi manipulátor) rendszert, egész pontosan egy távirányított robotkart. A kar leválhat a drónról, és akár négy méterről is képes veszélyes terepeken növényi mintákat gyűjteni.

Korábban vállalkozó kedvű, merész botanikusok, a sziklákat kötélen megközelítve végezték ezt a gyűjtőmunkát. Nem volt egyszerű dolgok, és könnyen tévedhettek is. Az új technológiákkal a probléma szerencsésen megoldódott.

A kar eddig tizenkét veszélyeztetett növényfaj huszonkilenc dugványát, magját gyűjtötte össze Kauai szigetén. Háromról azt hitték, hogy már kihaltak, másokból (amelyekből maximum százat feltételeztek) pedig meglepően sok példányt találtak. A szigeten kétszázötven endemikus növényfaj él. 2020-as becslés alapján az ottani növények tíz százaléka már kihalt, és nyolcvanhét százalékuk veszélyeztetett.

Létüket invazív állatfajok, mint például a vaddisznók, természetes környezetük elvesztése és a heves esőzések utáni földcsuszamlások teszik nehézzé, és sodorják a pusztulás szélére őket.

A drón közel egy év kutatómunka során közel 5500 új példányt talált, ami az előzetesen feltételezett mennyiség több mint kilencszáz százaléka.   

Nyberg szerint ezeknek a növényeknek a robotkar jelentheti a kihalás és a túlélés közötti különbséget.

A DeepMind modellje az embernél is jobban kódolhat

A mesterséges intelligencia kontra ember „meccseket” főként táblás, esetleg videojátékokból ismerjük, és tudjuk: az MI egyre jobban teljesít, egyre több területen diadalmaskodik.

Egy programozói verseny viszont sokkal nagyobb kihívás. Képzeljük el, hogy az MI és emberek ezt teszik.

Jó hír, hogy már nem is kell elképzelnünk, mert az Alphabethez (Google) tartozó DeepMind az AlphaCode modell részvételével rendezett ilyen versenyeket. Az MI jól teljesített, de nem ért el semmilyen kimagasló, szenzációszámba menő – szalagcímekre kívánkozó – eredményt. Nagyjából annyit nyújtott, mint egy néhány hónap, maximum egy év gyakorlattal rendelkező, kezdő programozó.

deepmind_alphacode.jpg

A DeepMind elmondása alapján a teszten „kb. emberi szintet” hozott, és kódszegmensek előrejelzésével, valamint többmillió potenciális opció generálásával korábban nem ismert természetes nyelvi problémákat oldott meg. Az opciók számát aztán maximum tízre szűkítette. A számítógépes kód szerkezetére vonatkozó, előzetesen beintegrált ismeretek nélkül jött rá ezekre.

Friss versenyek szimulált kiértékelésein 54,3 százalékot ért el, 66 százalékukat elsőre teljesítette. Problémánként csak tíz megoldást generálhatott.

Ha ezt a teljesítményt összevetjük mesterséges intelligenciák, köztük a DeepMind MI-jei bonyolult táblás játékokban elért eredményeivel, akkor nem nevezhetjük nagyon meggyőzőnek. A kódoló verseny nehézségi szintjét figyelembe véve viszont már inkább. Először AlphaCode-nak természetes nyelven kellett megértenie komplex kódolási problémákat, majd kóddarabkák memorizálása helyett inkább előre nem jelzett problémákra kellett következtetnie.

Megoldotta, pedig nem ismerte őket, és arra sincs bizonyíték, hogy a korábbi gyakorlóadatokból másolt volna valamit. Mindezek tudatában a DeepMind kutatói „komoly előrelépést” emlegetnek. Ráadásul a feladat nehézségi foka sem számít az MI-nek.

Nem ő a kódolásra is használható egyetlen nyelvi modell – az OpenAI GPT-3, illetve a (Microsofthoz tartozó) GitHub Copilot modellje is képes rá. Mindez azt jelenti, hogy a mesterséges intelligencia általi kódgenerálás kezdeti korszakában járunk, a DeepMind viszont bizakodik, plusz az AlphaCode fejlesztők új generációja számára teheti hozzáférhetőbbé a programozást, sőt, valamikor paradigmaváltást is okozhat a területen: az ember formába önti, az MI megoldja a problémákat.

Altatótörténeteket mesél gyerekeknek Alexa, az Amazon intelligens asszisztense

Komoly nyomás nehezedik az Amazonra, hogy újraélessze, új élettel töltse meg az Echo termékvonalat (a cég intelligens hangszórói). Értékesítésük eleve veszteséges, de a nagyvállalat abban bízott, hogy más áruk vásárlására ösztönöznek. 2022-es eddigi veszteségük viszont tízmilliárd dollár, és következményként, az Alexa szoftver fejlesztőrészlegére is elbocsátások várnak.

Eközben 2022 a szöveget, képet, videót és zenét generáló mesterségesintelligencia-modellek éve, és ebből Alexa sem maradhatott ki. Történetmesélő funkciójában több generatív modellt koherens egésszé kombináltak össze. Az persze más kérdés, hogy milyen eladásokat produkálnak vele.

alexa.jpg

De miről is van szó?

Képzeljük el, hogy nagyon fáradtnak érezzük magunkat, esetleg kifogytunk az ötletekből, és képtelenek vagyunk gyerekünknek lefekvés előtti történetet, mesét mondani.

alexa0.jpg

Itt jön képbe az Amazon az intelligens kijelzőjével, az Echo Show eszközzel, amelyen igény szerinti, személyre szabott sztorik pereghetnek.

Az Alkoss Alexával (Create with Alexa) funkcióval gyerekeknek szóló történetek hozhatók létre, képi illusztrációval, zenével és hangeffektusokkal.

alexa1_1.jpg

A képernyőn a beállításra vonatkozó promptok (utasítások) sora jelenik meg, például „a világűr felfedezése”, vagy „elvarázsolt erdő”, főszereplővel, mondjuk, egy űrhajóssal vagy földönkívülivel, meghatározó színnel, tónussal (vidám, titokzatos stb.).

Választásaink után, írott történeteken gyakoroltatott nyelvi modell öt jelenetre bontott öt-tízsoros szöveget hoz létre. Minden egyes jelenethez jelenetgeneráló modell választja ki egy könyvtárból a megfelelő háttérképet. A könyvtárban ember által alkotott és mesterséges intelligencia által generált képek egyaránt találhatók.

A modell tárgyakat és karaktereket ad hozzá, a szöveghez kapcsolódó arckifejezésekkel és gesztusokkal, például kezével integető, mosolygós arcú kalózt és másokat.

A hanggenerátor az audió-könyvtárban lévő akkordok, harmóniák és ritmusok közül választja ki, és keveri egybe a sztorihoz leginkább passzoló anyagot.

Mindezek után a mesterséges intelligencia álomba ringatja a gyereket.

süti beállítások módosítása