Messze még az általános mesterséges intelligencia, de már közelebb vagyunk hozzá, mint egy éve ilyenkor

0

2023. március 27. - ferenck

Az IBM Watson nevű mesterséges intelligenciája – a névválasztás a nagyvállalat első elnöke Thomas J. Watson előtti tisztelgés volt – 2011-ben a Jeopardy! televíziós vetélkedőn legyőzött két húsvér bajnokot. 2015-ben a ma már a Google-hoz tartozó DeepMind bemutatta a go világranglista negyedik helyezettjét később legyőző AlphaGo programot.

Az IBM és a DeepMind említett fejlesztései új lendületet adtak az MI-kutatásoknak, sokan egyenesen azt gondolták, hogy Watson és AlphaGo intelligenciája nagyobb, mint a valóságban volt. A jelenlegi nagy nyelvmodellek (LLM) és képgeneráló modellek kapcsán hasonló vélemények hangzanak el, és mind a 2010-es évek első felében, mind most egyre több az általános mesterséges intelligenciával (artificial general intelligence, AGI), annak közeli megvalósulásával kapcsolatos elmélkedés, spekuláció.

A generatív MI nagyon izgalmas, viszont a mai modellek messze vannak még az AGI-től – állítja a témakör egyik legavatottabb szakértője, Andrew Ng. AGI-n az intelligens ágens azon képességét értjük, hogy bármely szellemi feladatot ugyanúgy megért, megtanul és elvégez, mint az ember. És ettől valóban távol járunk.

A legutóbbi LLM-ek rendelkeznek emberfeletti képességekkel, de például a számológépnek is vannak ilyen aritmetikai adottságai, mégsem tekintettük soha az AGI előhírnökének. Az ember ugyanis rengeteg olyan dolgot képes megtanulni, amelyek a mostani intelligens ágenseknél fel sem merülnek.

Ha felvázolnánk az AGI felé vezető utat, a mai csecsemőlépések bizakodásra adnak okot, pedig az LLM-ekről köztudott, hogy akadnak komoly gondjaik az érveléssel (második ábra). A kutatók szerencsére folyamatosan korrigálják a hibákat, érvelésükön javítandó, gondolatláncokra ösztönzik őket: vonj le következtetést, használd azt még kifinomultabb következtetéshez, és így tovább.

Ng szerint 2022-ben döbbenetes fejlődés ment végbe, de ez is csak egy ötven-százéves út kezdete. Az emberhez és állatokhoz viszonyítani viszont – legalábbis jelenleg – nem tűnik a leghasznosabb megoldásnak. Azért nem, mert az MI szimultán van távol és haladja meg ezeket a szinteket. Ng inkább fontos alkalmazások megoldására használná az eredményeket.

Ne feledjük: az AGI a ködös jövő ígérete, viszont már a mai mesterséges intelligencia is rendelkezik az emberiség javára hasznosítható bámulatos tulajdonságokkal. Többet kellene foglalkoznunk a kiaknázásukkal.

komment

Automatizálni kellene a vállalatigazgatókat?

Facebook Tumblr Tweet Pinterest Tetszik

0

2023. március 24. - ferenck

A hongkongi NetDragon Websoft online játékokkal foglalkozik, évi bevétele 1,2 milliárd dollár. 2022 augusztusában zászlóshajónak számító leányvállalata élére új vezérigazgatót neveztek ki. Tang Yu a szokásos CEO-munkát végzi: elemzéseket néz át, fontos döntéseket hoz, felméri a kockázatokat, segít a munkahely hatékonyabbá tételében.

24/7-ben dolgozik, nem alszik, és egy vasat nem keres. Tang Yu ugyanis mesterséges intelligencia által irányított virtuális robot. Eddigi tevékenységének nincs negatív hatása, sőt, a vállalat a tőzsdén jobban teljesít az átlagnál.

Az MI fejlődésével automatizáció-szakértők gyakran felvetik az emberi munkaerő gépekkel történő helyettesítését, de szinte mindig a munkahelyi hierarchia alsóbb szintjein lévő dolgozókra, esetleg könyvelőkre vagy újságírókra gondolnak. Vezetőkre szinte soha, mint ahogy az alkalmazottaikat mesterséges intelligenciával felváltó főnökök sem magukkal kezdik a munkaerő „karcsúsítását.” Ők az utolsók a sorban.

Pedig lenne okuk rá, mert ezeket a drasztikus lépéseket elsősorban pénzügyi szempontok indokolják. A Fortune 500-hoz tartozok vállalatigazgatók átlagkeresete évi 16 millió dollár, az elmúlt negyvenöt évben 1460 százalékkal, míg az átlagdolgozóé mindössze 18 százalékkal emelkedett. Egy mai CEO annyit keres, mint 399 alkalmazott együtt. Nagyvállalatoknál még élesebb a szakadék, az Amazon-főnök például 6474 dolgozója fizetését viszi haza. A 2022 legrosszabb CEO-jának megválasztott Warner Bros. Discovery vezér 247 milliót keresett az előző évben. A fejlődés fordítottan arányos: miközben a vezetők fizetése egyre magasabb, a munkájuk egyre kevésbé hatékony, a technológiák pedig olcsóbbak és megbízhatóbbak lettek.

MI-vel való helyettesítésükkel az adott vállalatok nemcsak dollármilliókat spórolnának meg, de a rosszabb eredményekhez vezető személyes indítékok is eltűnnének.

Mégis érinthetetlenek, mégpedig azért, mert szerepük egy része mélyen emberi: elszámoltathatók, ők adják el a jövőképet, tárgyalnak, alkudoznak, kommunikálnak a nyilvánossággal. Céges kabalák, és a kabalák nem kifejezetten MI-biztosak. Pedig munkájuk jó része (adománygyűjtő modellek kezelése, sales irányítása, pénzügyi modellek kidolgozása, piackutatás stb.), legalább 60 százaléka kiszervezhető, és ha kiszervezhető, akkor mesterséges intelligencia is elvégezheti.

Egyre gyakrabban hoznak rossz döntéseket, és a Fortune 500-as vállalatoknál ezek miatt évi átlagban 250 millió dollár a veszteség. Emellett, munkájuk hatékonyságát mind inkább algoritmusok segítik, döntési folyamatban (például az IBM-nél, a Google-nál vagy az Alibabánál) az adatokat kimenetekkel összekapcsoló döntésintelligencia támogatja őket.

Minél több és jobb minőségű lesz az adat, annál jobb lesz az MI ezekben a feladatokban. Maximum nem fog golfozni illusztris személyekkel…

A munkaerő mindenesetre nem sajnálná őket: egy 2019-es felmérés megkérdezetteinek 30 százaléka örömmel helyettesítené MI-vel a főnököt, egy 2022-esének pedig 40 százaléka szerint a CEO munkáját teljes egészében automatizálni kellene.

komment

jövő mesterséges intelligencia automatizáció ember-gép interakció

A digitális kor legsikeresebb üzleti modelljei

Facebook Tumblr Tweet Pinterest Tetszik

0

2023. március 23. - ferenck

A 21. században a digitális befektetők, a hagyományos üzleti modelleket felforgatva, a bevételszerzés és a fogyasztók kiszolgálásának új módjait keresik. Tevékenységüket a desktop számítógéptől a felhőszámításig, a mesterséges intelligenciáig, az infokom technológiák több diszruptív hulláma tette és teszi sokáig lehetővé. Ezeket az új modelleket gyakran egymással kombinálva is használják.

De melyek a legsikeresebbek?

A Google és a Facebook sikere mögötti, hirdetésekkel támogatott modell az egyik legnépszerűbb. Lényege, hogy termékeket és szolgáltatásokat, MI és elemzőszoftverek közreműködésével, a felhasználókhoz kapcsolnak – nem fizetünk értük, mert mi magunk vagyunk a termék. A big datával elképesztő mennyiségű adat gyűlik össze az online térben jelenlévő személyekről, amelyeket hirdetőknek adnak el, ők pedig pontosan tudják belőlük, mire van szükségünk.

Az e-kereskedelem legegyszerűbb formájában vállalatok, például az Amazon és az Alibaba termékeket és szolgáltatásokat kínálnak online közvetlenül a felhasználóknak. Ezek a platformok piactérként is működhetnek, ahol kisebb cégek ténykednek, de rajtuk kívül is lényegében bárki bárkinek bármit eladhat rajtuk.

A freemium modell alaptermékeit és -szolgáltatásait ingyen használhatjuk, a prémiumhoz való hozzáférésért viszont fizetnünk kell. Ilyen a Spotify, a Dropbox, a LinkedIn és a Zoom. Például a Spotify-on ingyen kizárólag meghatározott módon, reklámokkal hallgathatunk zenét, és csak előfizetve élvezhetjük ki az összes előnyét.

A piactér/platform egyrészt az azzá kinövő Amazont, Alibabát, másrészt specializált online tereket (eBay, Uber, AirB’n’B) fed le. A felhasználó a szolgáltató hírnevéből és pénzügyi helyzetéből profitál, azok pedig üzleti analitika eszközökkel, hirdetéssel generálnak neki forgalmat, míg az eladásokból bizonyos százalék őket illeti.

Az előfizetéses modellben a fogyasztó rendszeresen fizet a szolgáltatónak. A Netflix például on-demand filmeket, a Microsoft és az Adobe „szoftver, mint szolgáltatás” csomagokat kínál. Ma már egyre több kereskedő és gyártó is előfizetéses úton kínál termékeket, például a friss élelmiszer kiszállítását. Az Amazon a teljes spektrumot lefedi, digitális szolgáltatásoktól kezdve termékek házhoz szállításáig, mindennel foglalkozik. A modell rendszeres bevételt, illetve a fogyasztóval való folyamatos kapcsolattartást is biztosítja.

Az aggregátoroldalak lényege, hogy termékeket és szolgáltatásokat kínáló cégeket összeszednek az interneten, majd egyetlen praktikus portálba rendezik őket, ahol a vásárló árakat, funkciókat és előnyöket hasonlíthat össze (PriceRummer, Shopping.com). Más aggregátorok meghatározott piacokra specializálódnak, mint például az Expedia az utazásra. Ezek az oldalak a hirdetésért nem kérnek anyagi ellenszolgáltatást, a vállalkozások akkor fizetnek nekik, ha az ajánlások alapján értékesítettek valamit.

A közösségi fizetés, a crowdfunding legismertebb képviselője a Kickstarter és az Indiegogo. Változatos kezdeményezések mögött álló cégeknek kínálják fel, hogy önkéntes alapú mikroadományokat gyűjtenek az adott projektre, amelyek az így összegereblyézett pénzből fejlesztenek prototípust, terméket, az adományozóknak pedig olcsóbb árat, prémiumszolgáltatásokat stb. kínálnak.

komment

hirdetés crowdfunding Google Facebook Amazon Alibaba Uber

Huszonhárom finnugor nyelvet fordít le a Tartui Egyetem rendszere

Facebook Tumblr Tweet Pinterest Tetszik

0

2023. március 22. - ferenck

A finnugor nyelveket beszélő mintegy 25 millió személy – a magyarok miatt – kisebbik fele Északkelet-Európában, a Baltikumban és Oroszországban él. A legelterjedtebbeket, a magyart 13-14, a finnt 6-7, az észtet 1,1 millióan, a mordvint 740 ezren beszélik anyanyelvként.

A finn Tartu Egyetem Számítástudományi Intézetének kutatói intézményük gépitanulás-motorját a komival, a manysival és további tizennégy finnugor nyelvvel bővítették. A szakemberek anyanyelvi beszélőket és kutatókat hívtak meg, hogy javítsanak a fordítások minőségén, de versek, újságcikkek, könyvek és más szövegek is sokat segítenek, azok beküldésére szintén számítanak.

A projekt 2021-ben, az északi és déli számival (lapp nyelvekkel) és a hagyományosan az észt egyik déli dialektusának, de ma már irodalmi nyelvnek tekintett vöroval indult. Utóbbi beszélői arra törekednek, hogy Észtországban – autochton (őshonos) regionális nyelvként – hivatalosan is elfogadják.

A mai Lettország nyugati területén, mindössze kb. húsz anyanyelvi beszélő által használt legveszélyeztetettebb – a Wikipédia szerint 2013-ban kihalt – lívet is 2021-ben tették fel a listára.

A természetesnyelv-feldolgozással foglalkozó Lisa Yankovskaya szerint a visszacsatolások nélkülözhetetlenek a jó minőségű fordításhoz, mert sok finnugor nyelven annyira kevés a forrás, hogy nagyon nehéz jól működő fordítórendszert kidolgozni hozzájuk.

Mindez azt jelenti, hogy a fordítás minősége változó, minél kevesebb a forrás, annál gyengébb. Másrészt, az anyanyelvi közreműködők jelentősen hozzájárulhatnak a pontos fordításhoz. Ritka nyelvek esetében filológusok is sokat segíthetnek.

A gépi fordítás – és általában a fordítások – a kihalástól fenyegetett, veszélyeztetett nyelvek esetében a fennmaradás egyik lehetőségét jelentik, és a beszélőket is támogatják. A Turku Egyetem rendszere éppen ezért bárki által szabadon használható, a modellek és a szoftver természetesen nyílt forráskódúak.

A munkában a Lettországi Egyetem, a Vöro Intézet, a Kelet-Finnországi Egyetem és a norvég Arktikus Egyetem is részt vesz.

komment

gépi fordítás nyelvtechnológiák

Az agy-számítógép interfészekkel jöhet el a technológiai szingularitás?

Facebook Tumblr Tweet Pinterest Tetszik

0

2023. március 21. - ferenck

Az internet és az okostelefon után, úgy tűnik, a mesterséges intelligencia is megváltoztatja az életünket. Olyannyira, hogy az MI idővel eljuthat az emberszerű gondolkodásig, eljöhet a technológiai szingularitás, az a jövőpillanat, amikor az – OpenAI által is „promótált” – általános MI (AGI) eléri, meghaladja az emberi szintet, végérvényesen átalakítva humán civilizációnkat. De ha megtörténik, észleljük-e majd egyáltalán?

Gépeinktől egyre elválaszthatatlanabbak leszünk. A folyamatot leginkább az agy-számítógép interfészek (brain-computer interfaces, BCI) szemléltetik. Mivel ember és gép közötti határokat olyan szinten teszik átjárhatóvá, képlékennyé, mint ahogy egyetlen más technológia sem tette még, több futurológus szerint velük kezdődik az ő értelmezésükben az ember és gép egyesülését jelentő szingularitás.

Elon Musk valamikor elkészülő Neuralink implantátumával eredetileg mozgássérült és látáskárosult személyeken segítene, a beültetéssel megvalósulna a telepatikus kommunikáció, ember és gép közös evolúciója metaforikus helyett tényleges értelmet nyerne. A Tesla-vezér szerint, ha az emberi intelligenciát nem „javítjuk fel” technológiai eszközökkel, akkor nem tehetünk semmit a ködös jövő gépi szuperintelligenciájával szemben. És ez a technológia már jóval túlmutat eredeti gyógyító célján.

Egy másik BCI-cég, a Synchron minimálisan invazív implantátumával amiotrófiás laterálszklerózisban (idegsorvadásos betegségben) szenvedők gondolati úton írhatnának, küldhetnének e-maileket, böngészhetnének az interneten. A startup projektjét részben a DARPA finanszírozza – ugyanaz a katonai ügynökség, amelyik az internet születésénél bábáskodott… Tom Oxley vezérigazgató – másokhoz hasonlóan – elmondta, hogy az agyi beültetések túlmennek a gyógyításon, és teljesen megváltoztathatják az emberi kommunikációt, agykapacitásainkat sokkal jobban kihasználhatjuk velük.

2012-es How to Create a Mind könyvében, Ray Kurzweil az agy magasabb szintű funkcióiért (észlelés, érzelmek, kogníció) feltételezhetően felelős neokortexet mintafelismerőkből álló hierarchikus rendszerként írta le, és ha sikerül gépben emulálni, a fejlődés egyrészt mesterséges szuperintelligenciához, másrészt szuperintelligens emberekhez vezet. Akkor 2045 körülre prognosztizálta a szingularitást.

Stephen Hawking viszont az Apokalipszis hírnökét látta az AGI-ben, ugyanakkor a BCI technológiákat (érthető okokból is) támogatta. Giulio Tononi idegtudós integrált információelméletében az összes elme és az összes adat egyesülése, egyfajta kollektív intelligencia, rajintelligencia, „kaptár-elme” (hive mind) – szupertudatos entitás – felé vezető útról írt.

komment

jövő mesterséges intelligencia Ray Kurzweil agy-számítógép interfész Szingularitás Elon MUsk

Az OpenAI bemutatta a képekkel is elboldoguló GPT-4-t

Facebook Tumblr Tweet Pinterest Tetszik

0

2023. március 20. - ferenck

Egyesek szerint a mesterséges intelligencia aranykorát éljük, ami talán túlzás, mert még sokkal fényesebb jövő jöhet, az viszont valószínű, hogy a ChatGPT-vel beindult trend, a nyelvmodell-mánia folytatódik. Az OpenAI március 14-én ugyanis bemutatta a GPT-sorozat elődeit szövegértésben, a megadott stílushoz való alkalmazkodásban mindenképpen felülmúló legújabb, negyedik változatát.

Szöveges input/outputhoz a ChatGPT Pluson keresztül, havi húsz dollárért férhetünk hozzá, hamarosan képi output – képet nem generál, csak leírja azt –, API (alkalmazásprogramozói felület) is lesz, a várólistára már most feliratkozhatunk.

Az OpenAI biztonsági és versenyszempontokra hivatkozva nem oszt meg sok részletet. A korábbi GPT-modellekhez hasonlóan, az új is transzformer-architektúrán alapul, nyilvános és magán adatsorokon úgy tanították, hogy előrejelezze a következő tokent (kb. négy karaktert, háromnegyed szót). Emberi visszajelzésekkel, szerkesztett promptokkal, megerősítéses tanulással finomhangolták.

Az egy beszélgetésben kezelt harminckétezer token egy nagyságrenddel nagyobb, mint a ChatGPT által kezeltek száma, tehát a többi nagy nyelvmodellnél hosszabb szövegekkel tud dolgozni. Nagy újdonsága, hogy képeket (köztük szövegoldalakat, fényképeket, diagramokat és képernyőképeket) is elfogad inputként.

A rendszerüzenet szintén újfajta input, ez utasítja a következő interakció során használt stílusra, tónusra, mondjuk, bőbeszédűségre, például, hogy úgy válaszoljon, mint Szókratész. GPT-4 új keretrendszert, az OpenAI Evals-t is kínál benchmarkok (mércék) létrehozására, futtatásukra.

Eddig már több mesterségesintelligencia-referenciaértéket és embereknek készült tesztek szimulált változatait teljesítette, utóbbiakon nyolcvan és száz százalék közötti eredményeket ért el. Többválaszos kérdésekben, józanész-következtetésben, Python kódolásban és sok más területen jobbnak bizonyult a legfejlettebb MI-knél.

Egyelőre még mindig kitalál „tényeket”, időnként tévesen következtet, néha elfogult, és úgy tűnik, nincs tisztában a 2021 szeptembere, a képzési korpusz elkészülte után történtekkel. Az OpenAI szerint azonban a modell már kész a kereskedelmi forgalmazásra.

komment

mesterséges intelligencia OpenAI nyelvtechnológiák

Robotok szerepelnek hindu rítusokban

Facebook Tumblr Tweet Pinterest Tetszik

0

2023. március 17. - ferenck

Az automatizáció és a robotok a hinduizmusban és a buddhizmusban is megjelentek. Sokak szerint spirituális környezetben, például az isteneknek történő szertartásos gyertyaégetéskor, az aartin – amelyet a punai Ganparti fesztiválon 2017 óta robotkar végez (lásd az első képen) – riasztók. A tények ellentmondani látszanak ennek a vélekedésnek, mert a robotkar más szertartások szervezőit is megihlette.

Az aartit végző és más robotok, mint például az egyik keralai templomban működő, életnagyságú gépelefánt egyes hívőknek érdekesek, szerintük az innováció a boldogabb és spirituálisabb jövőt szolgálja, mások azonban szkeptikusak velük szemben, félnek a használatuktól, és nem tudják, mit jelenthetnek majd a vallás számára. Ha a templomokban elterjednek, és az automatizáció fontosabb szempont lesz, mint a hívők istentisztelete, sokan hagyhatnak fel a vallások gyakorlásával – vélik.

Ezek az aggodalmak mindent átható lelki szorongáshoz kapcsolódnak. Eredőjük, a szorongás legfőbb oka a félelem, hogy a robotok jobban szeretik az isteneket, mint az emberek, és az istenek is őket, illetve jobb munkát végeznek a papoknál. Súlyos és nehezen megválaszolható, vagy megválaszolhatatlan kérdéseket is felvetnek az élet értelmével, az univerzumban betöltött szerepünkkel kapcsolatban.

Egyes antropológusok szerint, ellentétben az emberrel, a robotok spirituálisan nem ronthatók meg, és az istenségek és a papok szemében ezért lehetnek jobb alternatívák. Így válnak vonzóbbá a folyamatosan fogyatkozó papság számára, és terjednek el a hétköznapokban. A későbbiekben aztán a papokat is robotokra cserélhetik.

Azért alkalmazzák őket, mert nem aggódnak, hogy rosszul tesznek valamit, vagy – gyakorlati okokból – ha a szertartás elvégzésére kevés a lehetőség, még mindig jobbak a semminél. A mechanikus ikonok egyébként sem voltak szokatlanok az indiai mitológiában, egyes modernkori nacionalista politikusok szerint ők a bizonyíték arra, hogy a robotoktól az űrhajókig, mindent a hinduk találtak fel.

A robotok használata az indiai hagyományt jelentő vallásban mindenesetre elgondolkoztató és talányos, különösen, ha figyelembe vesszük az ember-gép viszony folyamatos változásait, a mesterséges intelligencia állandóan növekvő szerepét a posztindusztriális társadalmakban. A hinduizmusban és a buddhizmusban is kulturális paradoxonok, mert eljuthatunk addig a pontig, hogy a legtökéletesebb rituáléhoz egyáltalán nem kell már ember, jobb és hatékonyabb nélküle.

„A körforgásban, ahol emberek robotokat hoznak létre, robotok istenné, istenek emberré válnak, csak azt sikerült még egyszer elérnünk, hogy újragondoljuk magunkat” – írja Holly Walters antropológus.

komment

vallás robot India

Szöveg alapján módosít videotartalmakat a mesterséges intelligencia

Facebook Tumblr Tweet Pinterest Tetszik

0

2023. március 16. - ferenck

A szövegből közvetlenül videót előállító rendszerek mellett megjelent a meglévő mozgóképanyagokat módosító Gen-1, a kreativitást támogató multimodális mesterségesintelligencia-megoldásokon dolgozó Runway új fejlesztése.

A Gen-1 szöveges prompt vagy kép alapján videók beállítását vagy stílusát, az eredeti mozgásokat és formákat érintetlenül hagyva, alakítja át.

Egy videónak szerkezete és tartalma van. A szerkezet a formákra és a mozgásukra, a tartalom minden egyes forma megjelenítésére vonatkozik: színére, megvilágítására, stílusára. Videogenerátorok képesek megtanulni szerkezet és tartalom egymástól szétválasztott beágyazásokban történő kódolását. Ebből pedig logikusan következik, hogy a tartalom-beágyazást másikkal helyettesítve, a videó szerkezete, az új tartalom ellenére sem változik meg (lásd első kép).

Ezt teszi a Gen-1. A videó-képkockákat (frames) úgy hozza létre, mint egy diffúziós modell, így a gyakoroltatása is ugyanúgy történt. Ezeknek a gépi látásban alkalmazott modelleknek a célja adathalmazok rejtett szerkezetének az adatpontok térbeli szétszóródásának modellezésével történő megismerése. A gyakorlópéldákhoz változatos mennyiségű, közel száz százalék zajt adva, annak eltávolítására tanítják be.

A video-képkocka generálást teljes zajjal kezdte, a szöveges prompt vagy kép alapján több lépésben távolította el azt. A rendszer három beágyazással dolgozott: az elsőben képkockát, a másodikban szerkezetet, a harmadikban tartalmat ágyaztak be. A képkocka és a szerkezet minden egyes képkockára, a tartalom a teljes klipre vonatkozott.

Az adatsor 6,4 millió nyolc-képkockás videóból és 240 millió, a rendszer által egy-képkockás videóként kezelt képből áll.

Előzetesen gyakoroltatott automatikus kódoló az összes képkockához elkészítette a képkocka-beállítást, majd egy modell a frame-ből kivonatolta a formákat szín nélkül kihangsúlyozó mélységi térképet. A kódoló e térkép beágyazásával jutott el a szerkezet képkockánkénti beágyazásához.

Véletlenszerűen kiválasztott képkockát használva, egy tanult CLIP idegháló a kapcsolódó szöveget és képeket egybetérképezve készítette el a tartalom-beágyazást. (Csak eggyel dolgoztak a teljes videoanyagon.)

A beágyazásokat vizsgálva, egy másik idegháló megtanulta, hogyan értékelje ki a hozzájuk adott zajt. Utána a CLIP megkapta a szöveges utasítást vagy a képet, és létrehozta a saját beágyazását, amellyel helyettesítette a tartalomét. Az összes elkészítendő képkockához a rendszer véletlenszerű, azaz száz százalék zajból álló frame beágyazást kapott. A zaj eltávolítását követően, a rendszer dekódolója megalkotta a módosított video-képkockák végső változatát.

Öten értékelték ki, másik rendszerrel hasonlították össze, harmincöt promptot teszteltek, és Gen-1 az outputok 75 százalékában jobban teljesített.

komment

mesterséges intelligencia képtechnológiák

Az USA-ban nem állnak szerzői jogvédelem alatt az MI-vel generált képek

Facebook Tumblr Tweet Pinterest Tetszik

0

2023. március 14. - ferenck

Az Egyesült Államok szerzőijog-védelmi hivatala döntése alapján a Midjourney segítségével létrehozott képeket nem illeti meg a védelem.

Az ügynökség tavaly szeptember 22-én megadta a szerzői jogokat a Zarya of the Dawn képregénynek, októberben viszont visszavonási szándékukról figyelmeztették Kris Kashtanovát, a szerzőt, mert Kashtanova közösségimédia-posztjaiból megtudták, hogy a képeket a Midjourney közreműködésével készítette. Az alkotó fellebbezett, az ügynökség pedig úgy döntött, hogy a szövegre és a képek elrendezésére érvényes a jogvédelem, magukra a képekre viszont nem.

Az indoklásban az áll, hogy – a Legfelsőbb Bíróság egy, 1884-es ítéletére hivatkozva – egyetlen olyan alkotást sem regisztrálnak, amelyet nem ember hoz létre. A felhasználók nem tudják kontrollálni a Midjourney outputját, az MI-modell más, mint az „ember irányította” hardverek, például a kamerák vagy a Photoshop. Az azokkal alkotott munkákat megilleti a jogvédelem.

Még ha Kashtanova komoly erőfeszítéseket is tett a promptok megírásában, a képeket nem ő készítette – áll a verdiktben. Hiába szerkesztett Photoshoppal, a szerkesztetlen és a szerkesztett változatok közti különbség elenyésző, ez alapján a képeket nem illeti meg a szerzői jog.

Az alkotó egyrészt örül, hogy a szöveg és a layout jogvédett, a képek miatt viszont lobbizni fog. Országonként eltérő módon ítélik meg a kérdést, például Dél-Afrika 2021-ben egy mesterségesintelligencia-rendszernek adta meg a vele és ezek szerint általa alkotott egyedi élelmiszer-tároló feltalálójának járó szabadalmi oltalmat.

De kié is a generatív MI-modellek outputja? Az amerikai szabályozás szerint – egyelőre – senkié. A döntés olyan környezetben befolyásolhatja kiadói és kreatív közösségek üzleti stratégiáját, ahol gombamód szaporodnak az MI közreműködésével alkotott szövegek, képek, hangok, videók, 3D modellek stb.

A hivatal határozata vitatható, mert a Midjourney használatához, egy kép kitalálásához, megfelelő prompt megfogalmazásához és az iterációkhoz önálló kreatív fantázia kell. Az alkotótevékenység, a szakértelem megtagadása az MI-t egyedi módon használó személyektől komoly hiba.

komment

szerzői jog szabályozás mesterséges intelligencia művészetek ember-gép interakció

Vírusként terjednek a hangklónok

Facebook Tumblr Tweet Pinterest Tetszik

0

2023. március 13. - ferenck

Mainstreammé vált az ingyenes mesterségesintelligencia-szolgáltatásokat nyújtó online platformokkal könnyebbé tett hangklónozás. Szövegek és képek után most már ezek az új hangok is elég meggyőzőek és hozzáférhetőek annyira, hogy mindenféle tartalomgeneráló hatékony eszközként használja őket.

Az ElevenLabs, a Resemble AI, a Respeecher és a Play.ht nemrég indított rövid minta alapján a beszélő hangját klónozó szolgáltatást, és az eredmények sem várattak sokáig magukra.

YouTube felhasználók az Egyesült Államok négy utolsó elnökének hangját klónozták. Biden, Trump, Obama és az ifjabbik Bush kártyáról, a Minecraftról és Pokemonról vitáztak, a videót többszázezren nézték meg.

A Twitch chat-csatornán folyamatosan streamelt, egyelőre alig húszezer felhasználó által követett fiktív beszélgetőműsornak, az Athene AI Show-nak a nézők elküldhetik interjúkérdéseiket, hírességek vagy fiktív személyek klónozott hangja válaszol rájuk. A műsor házigazdája, az MI által generált beszélgetés vezetője az Athene nevű képzelt internetes személyiség.

A Spotify AI DJ-je személyre szabott lejátszási listákat hoz létre a felhasználóknak, a kommentárok Xavier Jernigan, a vállalat kulturális partnerségekért felelős vezetőjének klónozott hangján hallhatók. A szintetikus hangot a tavaly felvásárolt Sonantic AI készíti, az írott anyagot az OpenAI egyik meg nem nevezett modellje alakítja szöveggé.

David Guetta francia DJ Eminem stílusában és hangján készült számrészletet játszott le egy fellépésen.

A hangklónozás demokratizálódása azonban bűnözők és csínytevők előtt is megnyitotta a kapukat.

Rokonok hangját klónozó csalók több esetben szedtek ki pénzt áldozataikból. A Vice egyik riportere az ElevenLabs technológiájával saját hangját klónozta le, és a hang elég meggyőzőnek bizonyult ahhoz, hogy hozzáférjen a bankszámlájához. Szintén az ElevenLabs megoldásával 4Chan felhasználók hírességek hangján előadott gyűlöletbeszédet generáltak.

Az ElevenLabs felhasználók identitásának ellenőrzésével, klónok azonosításával és a szolgáltatással visszaélő csomó fiók törlésével reagált a kamuhangokra.

komment

hangfelismerés dezinformáció deepfakes

Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Messze még az általános mesterséges intelligencia, de már közelebb vagyunk hozzá, mint egy éve ilyenkor

Automatizálni kellene a vállalatigazgatókat?

A digitális kor legsikeresebb üzleti modelljei

Huszonhárom finnugor nyelvet fordít le a Tartui Egyetem rendszere

Az agy-számítógép interfészekkel jöhet el a technológiai szingularitás?

Az OpenAI bemutatta a képekkel is elboldoguló GPT-4-t

Robotok szerepelnek hindu rítusokban

Szöveg alapján módosít videotartalmakat a mesterséges intelligencia

Az USA-ban nem állnak szerzői jogvédelem alatt az MI-vel generált képek

Vírusként terjednek a hangklónok