Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Az OpenAI nevetségessé tette Elon Musk ellenük indított jogi eljárását

2024. március 28. - ferenck

Elon Musk február végén jogi eljárást kezdeményezett az OpenAI és vezérigazgatója, Sam Altman ellen. A mesterségesintelligencia-modellek világ előli eltitkolása a vád.

Musk többek között Altman társaságában alapította majdnem kilenc éve, majd 2019-ben hagyta el a kortárs MI-kutatásokat leginkább fémjelző vállalatot. A cég nonprofitként indult, a válást a vezetőséggel való ellentétek idézték elő, és talán az a tény is, hogy profitorientálttá kívánták tenni az OpenAI-t, ami meg is valósult.

musk_openai.jpg

A multimilliárdos Tesla-főnök szerint az OpenAI 13 milliárd dolláros partnersége a Microsofttal a nyílt forrású (open source) MI fejlesztését előirányzó eredeti tervek elárulása, és a cég most lényegében a redmondi óriás fiókvállalkozásaként funkcionál. Az új vezetőség nemcsak fejleszt, hanem folyamatosan újraértelmezi az általános mesterséges intelligenciát (AGI) azért, hogy az emberiség szolgálata helyett a Microsoft profitját maximalizálja – hangsúlyozza a magát az MI-veszélyt egyedül érzékelő személy színében előszeretettel feltüntető Musk.

„Mr. Musk közreműködése és fontos támogató kezdeményezései, forrásai nélkül az OpenAI nagy valószínűséggel soha nem indult volna el” – áll a hivatalos anyagban.

musk_openai0.jpg

Musk szerződésszegéssel, vagyonkezelői kötelezettség megszegésével és tisztességtelen üzleti gyakorlattal vádolja az OpenAI-t és vezetőségét. Ezért összes technológiájuk nyilvánossá tételére szólította fel őket, Altmant pedig minden eddig megkeresett pénzéről való lemondásra kötelezné.

Persze a pereskedésnek bíróságig is el kell jutnia, és a jelenállás szerint ennek igen kicsi a valószínűsége.

Az OpenAI nyilvános válasza nem maradt el, Musk jogi kezdeményezését szövevényesnek és inkoherensnek írták le benne. A milliárdos ráadásul soha nem létezett szerződés megszegésével vádolja az OpenAI-t. „Az általa keresett megkönnyebbülés épp olyan rendkívüli, mint amennyire kitaláltak az állításai. Musk utasítást kérvényez, hogy az OpenAI a fiktív szerződésnek megfelelően szervezze át magát és tegye közkinccsé technológiáját” – írják a vállalat ügyvédei.

Az OpenAI tehát semmiféle Muskkal kötött szerződést nem szegett meg, mert nem volt alapító megállapodás, sőt, semmiféle megállapodás nem volt vele. Egy korábbi blogbejegyzésben leírták azt is, hogy anno Musk az általános mesterséges intelligenciához szükséges sokmilliárd dollár összegyűjtése miatt sürgette a céget. Az anyagokból úgy tűnik, hogy a Tesla-főnök az MI-versenyben sokkal sikeresebb riválist lehetetlenítené el, és valószínűleg zavarja a nagy áttörés előtti kiszállás.

Az iPhone-ra kerül a Google Gemini-ja?

Miután a Bloomberg arról számolt be, hogy az Apple tárgyalásokat folytat a Gemini multimodális mesterségesintelligencia-modell licenceléséről a Google anyacégével, az Alphabettel, az utóbbi tőzsdei részvényei több mint négy százalékos növekedést mutattak a március 18-i záráskor. Az Apple esetében szintén növekedést figyeltek meg, ám az jóval szerényebb, alig egyszázalékos volt.

A Google generatív mesterségesintelligencia-csomagja, a felemásan megítélt Gemini chatbottól a kódoló asszisztensig, sok lehetőséget kínál. Legfőbb és az MI fejlődésének következő fázisát felvillantó újítása a multimodalitás.

iphone_gemini.jpg

A Bloomberg szerint a tárgyalások arról folynak, hogy az iPhone-gyártó licenceli és beépíti a Gemini MI motort az okostelefonba. Belső források alapján a megbeszélések aktívak. Az MI még ebben az évben új funkciókkal bővítené az Apple csúcstermékét.

A következő nagy iPhone-frissítés, az iOS 18 bejelentésére a cég júniusi Fejlesztői Világkonferenciáján kerülhet sor. Az Apple ezen az éves rendezvényen valószínűleg többet elárul generatív MI-vel kapcsolatos terveiről, és általában (az őszi  kereskedelmi forgalomba kerülés előtt) ilyenkor beszél a legújabb iPhone-szoftverről is.

Tim Cook vezérigazgató februárban elmondta, hogy szignifikáns pénzösszeget fektetnek mesterséges intelligenciába, de bővebben az év későbbi hónapjaiban fog beszélni róla. A generatív MI újradefiniálja a jövőt – nyilatkozta, és ezért is akarnak előrelépni azon a területen, ahol a többi infokom nagyágyúhoz képest komoly versenyhátrányba kerültek.

Szintén a Bloomberg szerint nemrég az OpenAI-jal is tárgyaltak, és elgondolkoztak valamelyik modelljük használatán, ám a felek nem döntöttek a mesterséges intelligenciára vonatkozó megállapodás feltételeiről, márkanévről, mint ahogy az implementálás módját sem véglegesítették.

A sajtóhírre vonatkozó kérdésekre az Apple megtagadta a választ, az Alphabet pedig semmit nem reagált.

Nyílt forrású nagy nyelvmodelleket tett közzé a Google

A Google története folyamán számos nyílt forrású (open source) mesterségesintelligencia-kezdeményezéssel (AlphaFood, TensorFlow, a BERT és a T5 több változata, Switch stb.) gazdagította a számítástudományt, információs társadalmat.

Az utóbbi időben, a nyílt forrású nagy nyelvmodellek (large language models, LLM) körüli versenyfutásban viszont háttérbe szorultak a Meta, a Microsoft és a francia Mistral.ai mögött. Miért fontos ez? Főként azért, mert azok az LLM-ek, amelyek elég kicsik ahhoz, hogy laptopon is futtathatók legyenek, nyílt forrásúként növelik a fejlesztők számát, még többen hozzáférnek az MI-hez.

googleopensource0.jpg

Most viszont a Google is lépett az open source LLM-fronton. Közzétett súlyokat a Gemma-7B 8,5 milliárd paraméteres grafikus feldolgozóegységeken (GPU) futó LLM-hez, és a szintén LLM, de CPU-n (központi feldolgozóegység) és edge eszközökön futó, 2,5 milliárd paraméteres Gemma-2B-hez. Mindkettő két változatban, előre gyakoroltatott alapmodellként és utasítások követéséhez finomhangolt változatban is elérhető.

A Gemma-modellek a nagyobb Gemini-hoz hasonló architektúrán alapulnak, de nem multimodálisak.

A 2B-t és a 7B-t két-, illetve hatbillió tokenen gyakoroltatták: angol nyelvű webes dokumentumokon, matematikán, kódtöredékeken. 8192 kontextusalapú tokent képesek feldolgozni.

google_opensource.jpg

A finomhangolt változatokat tovább gyakoroltatták ember által gépi segítséggel generált prompt- és válaszpárokkal, illetve csak szintetikus válaszokkal. Az anyagokból kiszűrték a személyes infókat, a gyűlölködő válaszokat és minden más megkérdőjelezhető elemet. Emberi visszajelzéssel megtámogatott megerősítéses tanulással tovább pallérozták őket. Kimeneteiket szintén gondosan trenírozott modell bírálta el.

A Gemma licence lehetővé teszi a kereskedelmi felhasználást, sok lehetőséget viszont tilt, mert megsérthetik a szerzői jogot, hamis infókat generálnak, illegális tevékenységhez kapcsolódnak, szexuálisan explicit tartalmat állítanak elő stb.

A Gemma-7B-t többre értékelik a hasonló méretű nyílt modelleknél (Meta Llama 2.7 B, Mistral-7B), sőt, a cég szerint a közel kétszeres méretű Llama 2.13B-nél is jobban teljesít (például kérések megválaszolásában, következtetésben, matekban, kódolásban). A Gemma-2B a méretében legjobb modellekkel összevetve, viszont gyengébb.

A Gemma két szempontból is figyelemreméltó: egyrészt javított a hétmilliárd paraméter körüli modellek teljesítményén, emelte a lécet, másrészt jelzi a Google elkötelezettségét a nyílt forrású MI mellett. Újabb innovációs hullámot indíthat el.

Humán kollégáinál is jobban szintetizált vegyszereket az amszterdami robotvegyész

Az Amszterdami Egyetem kutatói fényre aktiválódó vegyi reakciók tervezését megtanuló robotikus rendszert fejlesztettek. RoboChem úgy végzi munkáját, hogy optimális eredményt ér el vele, kémiai anyagok szintetizálásában humán kollégáit is felülmúlta.

A rendszer több elemből áll össze.

A számítógépen gépitanulás-modell fut, míg az automatizált laboreszköz-készlet folyadékkezelőt, fecskendős szivattyúkat és fotokémiai reaktort tartalmaz. Mindegyik légmentesen elzárt vákuumkamrában van.

robochem.jpg

Reagenssorral és az eredményként megkapott termékkel a rendszernek meg kellett találnia az optimális „terméshozamot”, azaz a szintetizált termék és a potenciális termék minél magasabb arányát (azt a különbséget, hogy mennyit állíthatna elő elvileg, és abból mennyit állít elő a valóságban).

Háromrészes ciklust követett: meg kellett határoznia a kísérleti feltételeket (reagens mennyiségét és koncentrációját, fényintenzitást, reaktorban eltöltött időt), ezen feltételek mellett összekombinálnia a reagenseket, majd spektrométerrel kiértékelnie a hozamot, eredményt.

Közben megtanulta, hogyan jöjjön rá minden egyes reakció ideális feltételeire. Utána valószínűségi alapon új (optimalizáló) feltételeket választott. A ciklust mindaddig ismételte, amíg el nem érte a fejlesztők által meghatározott eredményt, hozamot, kísérletszámot. Maximalizálta, amit csak lehetett.

Tizennyolc anyagot állított elő, mindegyiknél optimalizálta a hozamot, és humán „kollégákat” felülmúlva, a korábban ismert legjobb feltételeknél azonos vagy jobb eredményt ért el.

Nem ő az első robotvegyész. 2020-ban a Liverpooli Egyetemen egy mobil robot navigált a vegyi laborban, anyagokat kevert össze, műszereket működtetett. Hasonló optimalizáló módszerrel dolgozott, az amszterdami gép viszont sokkal olcsóbb, és több kísérletnél használható.

Fejlesztői szerint drámai mértékben növelheti a termelékenységet, és csökkentheti a munkára fordított időt, pénzt. A fényre aktiválódó reakciók gyógyszeripari, háztartási vegyszer- és újrahasznosítható energia-alkalmazásokkal kecsegtetnek.

Kommunikációvá alakítja a kézmozdulatokat egy magunkon viselhető matrica

Képzeljük el, hogy vékony és rugalmas matrica kéz- és ujjmozdulatainkat egyetlen szó kimondása vagy a számítógépes billentyűzet minimális használata nélkül kommunikációvá alakítja.

A kínai Pekingi Egyetem és a Gullin Elektronikus Technológiai Egyetem kutatói pont ilyen, újtípusú magunkon viselhető (wearable) szenzort fejlesztettek. A rehabilitációs alkalmazások változatos lehetőségeit felvillantó, kommunikációs problémákkal küzdő személyeket segítő érzékelő pontosan ezt teszi.

matrica.jpg

A szenzor a puha és rugalmas polidimetil-sziloxánt (PDMS) a rostos Bragg-rács (FBG) nevű optikai komponenssel kombinálja össze. Maga a matrica kényelmes, hosszú ideig viselhető, és nagyon pontosan detektálja a mozdulatokat.

Stroke-ból lábadozó személyeknél a csukló, az ujjak vagy akár az arc mozgását nyomon követheti, segítve a rehabilitáció előrehaladását. Komoly mozgás- és beszédkorlátozástól szenvedők esetében a szenzor szavakká vagy megjegyzésekké fordítja a kézmozdulatokat és az arckifejezéseket. Az illető a matrica segítségével könnyebben kommunikál másokkal, folytat interakciókat számítógépes technológiákkal.

A fejlesztést multidiszciplináris csapat végezte: fénytan-szakértők, biomedikális, szoftver- és villamosmérnökök közös munkáját dicsérhetjük. A szenzor a teszteken mozdulatok felismerésében magasszintű érzékelőképességet mutatott, jól funkcionált kommunikációs asszisztensként.

A mozdulatok detektálásán túl, ezek az adaptálható érzékelők többféle alkalmazásra használhatók, alakíthatók ki speciális elvárások szerint. Más egészségügyi mutatókat, például a légzést vagy a szívritmust minimális testmozgások detektálásával monitorozhatják.

Sportolók és fitneszezők számára szintén hasznosak lehetnek. Formájukat, technikájukat folyamatosan és valós időben figyelve, segíthetnek teljesítményük javításában. Az immerzív és interaktív élményt javítandó, játékrendszerekbe is beintegrálhatók.

Számítógépes utasításokká alakít át gondolatokat egy agyi implantátum

Egy Mark nevű, ALS-ben (amiotrófiás laterális szklerózis) szenvedő betegnél 2021-ben diagnosztizálták a bajt. Tavaly augusztusban az agya neurális tevékenységét számítógépes utasításokra fordító agy-számítógép interfészt (brain-computer interface, BCI) ültettek a koponyájába.

A BCI egy stent (csőszerű eszköz) elektróda-érzékelőkkel. A Synchron vállalat fejlesztése Mark agyának egyedi elektromos jelzései alapján szótárt dolgozott ki, hogy a mozgásalapú jeleket utasításokká lehessen fordítani.

bci_2.jpg

Képzeljük el a következő jelenetet: Mark erősen figyeli a számítógép-monitort, keze mozdulatlan, teste mellett nyugalmi állapotban van, bár a jobb mutatóujja egy kicsit remeg. A képernyőről figyelmeztető jelzés hangzik – üzenet a gondozónak, hogy segítségre van szükség.

Egeret sem használt, a képernyőt sem érintette meg. A számítógépnek agyi jelzéssel adta az utasítást, a jelzést az implantátum fordította utasítássá.

bci0_1.jpg

Mark a tizedik olyan személy a világon, akinek ilyen típusú BCI-t ültettek az agyába. A Synchron humán tesztjén vesz részt, a cég bizakodik, hogy a technológia rajta és az agy motorikus funkcióit elveszítő más személyeken is képes segíteni.

„Lehetőség arra, hogy a technológia segítsen valakin, aki másként nem tudna magán segíteni” – nyilatkozta Mark a CNN-nek.

bci1.jpg

A BCI-technológiák iránti érdeklődés folyamatosan nő, és amikor Elon Musk bejelentette, hogy egyik cége, a Neuralink aktívan részt vesz az ezirányú kutatás-fejlesztésekben, illetve mások nemrég publikáltak ígéretes tanulmányokat, sokan máris mainstream-nek kezdték érezni.

Pedig távolról sem az, és a kereskedelmi forgalmazására irányuló törekvések is komoly szabályozási, etikai és személyiségjogi akadályokba ütköznek. Másrészt, a technológiának is megvannak a korlátai, így ne számítsunk arra, hogy háziorvosunk komoly baj esetén már honapután fel fogja írni.

Mark tudja, hogy az ALS gyógyíthatatlan, ezért egyértelmű volt számára: részt vesz a kísérletben. Egyelőre sok mindent meg tud csinálni magától, de érzi: pár év alatt jóval ügyetlenebb lett. Bízik a BCI-ban, hogy teljeshez hasonló életet élhet vele.

Ha el akarja érni kedvenc appját, az Audible-t, valakinek szemben kel tartania vele az okostelefonját, hogy kiválaszthassa. Reméli, hogy az implantátummal könnyebben hozzáfér majd hangoskönyveihez, és más mindennapos tevékenységekben is segíti.

A BCI közreműködésével már tud Pong-szerű videóalapú asztaliteniszt játszani, egészségügyi megjegyzéseket küldeni, fájdalmakról beszámolni. Bízik benne, hogy hamarosan szöveges üzeneteket „ír”, irányítja az Alexát, használja majd a Netflixet is vele.

Öngyógyító robotok

Önmagukat emberi beavatkozás nélkül meggyógyító, korrigáló robotok tökéletesen funkcionálhatnának azokban a veszélyes és távoli környezetekben, például a világűrben és az óceán mélyén, ahol mindenféle javítás nehézségekbe ütközik.

Az öngyógyítás azokra a folyamatokra vonatkozik, amikor külső beavatkozás, a gyógyulást elindító valamilyen mikroesemény nélkül javul meg az adott anyag, és szerencsére egyre több matéria rendelkezik már ezzel a tulajdonsággal. Az anyagtudomány gyors fejlődésével a lehetőségek drámai módon bővülhetnek a közeljövőben.

onjasvito_robotok.jpg

A legtöbb öngyógyító robot hevítésre, majd lehűlve „megjavuló” polimereket tartalmaz. A világ különböző műhelyeiben dolgozó kutatók autonóm robotgyógyításra alkalmas módszereket, elektronikus alkatrészeket stb. azonosítottak, amelyeket azonban a látványos bemutatók után a gyakorlatban is a gépekbe kellene integrálniuk. Lényeges különbség a korábbiakhoz képest, hogy ezeknek a robotoknak már nemcsak ellenállónak kell lenniük sérülésekkel szemben, hanem sérülés esetén meg kell tudniuk magukat gyógyítani.

A  hidrogénkötésű polimerek különböző kötési szintjei/erőssége például a nehéz körülmények közötti önjavításra tökéletesen megfelelő erős és rugalmas anyagokat eredményeznek.

Vezetőképes öngyógyító anyagokat szintén fejlesztettek már, például folyékony fémet vagy dielektrikumokat és félvezetőket adnak a saját magukat kijavító polimerekhez.

De hogyan érzi a fájdalmat, mit érez fájdalom helyett egy robot? Mert a meghibásodás korrigálásához észlelnie is kell azt. Az embernél a fájdalom a jel, robotoknál pedig például az áramot speciális szénrészecskéinek köszönhetően vezető polimerekből készült szenzorok a vezetés változásaiból detektálhatják a bajt.

A Brüsszeli Szabadegyetemen dolgozó Bram Vanderborg csoportja ilyen szénrészecskés polimert használt az elektromos ellenállás változásait detektáló piezorezisztív nyílásérzékelők fejlesztéséhez. A szenzorokat puha robotmarkolóba ágyazták; a deformációkat, a vágásokat és a töréseket az ellenállás változásai miatt azonnal észlelik.

Vanderborg szerint a különféle anyagokat, technikákat egyetlen nagy alkalmazásban kellene összekombinálni.

TikTok-stílusú szappanoperák lehetnek Kína következő fontos exportcuccai

Ty Coker amerikai hangszínész általában videójátékokhoz és animációs filmekhez adja a hangját. Decemberben viszont kínai sorozat (Adored by the CEO) amerikai változatához hívták, és az egyik főszereplő az ő hangján szólalt meg.

A sorozatot hiába keressük televízión, Netflixen, nem találjuk. A hasonló rövid drámákkal teli kínai FlexTV appon viszont igen. Az anyagokat okostelefon-képernyőre forgatják, epizódonként másfél-két percesek, arra alapozva, hogy manapság ennyi ideig vagyunk képesek figyelni valamire. Coker a „TikTok-kor szappanoperáiként” beszél róluk.

chinatiktok.jpg

Az utóbbi években váltak népszerűvé Kínában. Az alapokat a szintén jellegzetesen kínai, a helyi internetet az utóbbi két évtizedben letaroló webregények, tíz percnél rövidebb idő alatt elolvasható epizódokból álló, folytatásos anyagok jelentik. Minden nap jön a fillérekért megvásárolható új folytatás. A 2010-es években több webregény átlépte az országhatárokat, egyiket-másikat angolra is lefordították, aztán viszont jött a TikTok, és ma már a közel tízperces szöveg is megerőltető, túl hosszú koncentrációt igényel.

A webregények mögötti cégvezetők rájöttek, hogy az anyagok szuperrövid filmdrámákká adaptálhatók. Ezek a regények és drámák ugyanazt a piacot, az idejüket ingázás, ebédszünet, liftezés stb. közben valamivel agyonütő személyeket szolgálják ki.

chinatiktok0.jpg

A rövid drámák gyakran száz epizódig elhúzódnak, de a teljes sorozat így sem hosszabb egy hagyományos játékfilmnél. A legsikeresebbek néhány nap alatt többtízmillió dollár bevételt generálnak, a teljes kínai piac 2023-ban meghaladta az ötmilliárd dollárt.

A siker hatására több vállalat az országon kívül is szeretné lemásolni a működő üzleti modellt. A FlexTV nemcsak amerikanizálja, szinkronizálja darabjait, hanem már az USA-ban is forgatnak, hogy még autentikusabb legyen a felhasználói élmény.

A drámák legyártása nem költséges, nem is látványosak, egyes sorozatokat két hét alatt készítenek el, a forgatókönyvek egyszerűek, a fogyasztás csak online megy, ha az egyik sorozat nem jön be, gyorsan váltanak egy másikra, kevés pénzből is bármit megcsinálnak. Ha viszont egy drámasorozat megtalálja a megfelelő amerikai közönséget, akkor tengerentúlon is nagyot kaszálhatnak.

A FlexTV nem az egyetlen Amerikát meghódítani szándékozó kínai drámaalkalmazás. Más appok, például a ReelShort és a DramaBox is hasonló babérokra törekednek. Ha beválnak, Kína következő nagy kulturális exportját jelenthetik.

Gépi rendszer segíti már a tornászversenyek bíróit is

Sporthatóságok a pályán és a pályán kívül is használnak már mesterségesintelligencia-technikákat.

Két angol klub, a Chelsea és a Nottingham Forest érdeklődik a friss tehetségek felfedezésében segítő AISCOUT app iránt. Viszonylag egyszerű: amatőr játékosok videókat töltenek fel magukról cselezés, dekázás stb. közben, az app pedig pontozza teljesítményüket.

A 2020-as Tokiói Nyári Olimpián a hivatalos időmérő Omega Timing több MI-alapú rendszert vezetett be: ugrószőnyegen tartózkodó tornászok testtartását értékelő rendszert, úszók teljesítményét elemző képfelismerőt, labdakövetőt röplabdához.

torna.jpg

A profi focicsapatoknak videótárolást kínáló svájci Acronis MI-alkalmazása a játékosok mozgását követi, és elemzi taktikájukat. A cég tevékenységi körébe tartozik még hogy jegyeladások, időjárás és más tényezők alapján EPL-csapatoknak előrejelzi a meccsenkénti nézőszámot.

A tornászversenyek pontozása sokkal szubjektív kritériumok – arckifejezés, önbizalom, személyes stílus, technikai kompetencia – alapján történik, és gyakran nem tudatos (vagy akár be nem vallott, de tudatos) elfogultság tapasztalható, a bírók egyes sportolókat előnyben részesítenek másokkal szemben.

Technikai apróságokat nyomon követő MI-rendszer segíthet a sport szubjektív aspektusaira fókuszáló bíróknak az elfogultság leküzdésében (már amennyiben tényleg le akarják küzdeni).

Az olimpia-szintű tornaversenyek elkezdték alkalmazni a Fujitsu által fejlesztett, MI-alapú kiértékelő, Bírótámogató Rendszert (JSS). Először a tavaly szeptemberben és októberben, Antwerpenben megrendezett Művészi Torna Világbajnokságon, több eszközt, köztük szőnyeget, gerendát, rudakat, gyűrűt stb. felvonultató versenyeken használták.

A bírók bármilyen testtartásban vagy mozdulatban észlelt hibáért büntetik a sportolót. Az JSS azonosítja a megadott büntetésekhez kapcsolódó eltéréseket a normától. Humán bírókkal összehasonlítva, a rendszer kb. kétezer testtartást és mozdulatot kilencven százalékos pontossággal képes kiértékelni. Elszigetelt és teljesen rutincselekvéseket is el tud bírálni.

Valódi videókat generál a mesterséges intelligencia?

Sora, az OpenAI új szövegalapú videógenerátora magasra emelte a lécet részletességben és realizmusban. Korábban egyetlen MI sem érte el ezt a szintet, nem alkottak ennyire meggyőző, csúcsminőségű mozgókép-világot. Magáról a rendszerről, a rendszer felépítéséről viszont keveset tudunk.

Sora kódoló-dekódolót és transzformert használó, zajt videóvá alakító látens diffúziós modell. A rendszert maximum 1920x1080 pixeles és egyperces videókon gyakoroltatták.

sora.jpg

Az OpenAI a biztonság kiértékelése miatt külsős kutatókkal ugyan megosztotta a technológiát, kvantitatív részleteket és a korábbi munkákkal való összehasonlítást viszont nem közölt róla. A modellarchitektúrák és a gyakorlómódszerek részletes leírása szintén hiányzik. Egyes eredmények arra engednek következtetni, hogy nemcsak a zaj tokenekről történő eltávolítására, hanem jövőbeli tokenek előrejelzésére és más tokenek közötti tokenek generálására is megtanították az MI-t. A forrásokról és az adatkészletről szintén nincs infó.

Az eredmények elég meggyőzőek ahhoz, hogy feltegyük a kérdést: Sora milyen szinten érti a fizikát, mert a jelenetekben nyilvánvalóan promptok és vágás nélküli részletek is bőven szerepelnek, összességük pedig konzisztens, részletesen kidolgozott anyag. Hibák és folyamatossági problémák persze előfordulnak, de első látásra szinte semmit nem veszünk észre belőlük. Másodszorra, harmadszorra is nehezen.

sora0.jpg

Eddig láttunk már videókat generáló transzformereket, diffúziós modelleket, képeket generáló diffúziós transzformereket, videógeneráló diffúziós transzformerre viszont Sora az első példa. Szépen szemlélteti, mennyire alkalmasak ezek a modellek mozgókép-készítésre.

De vajon megtanult egy világmodellt? – teszi fel a kérdést Andrew Ng, gépitanulás-szakértő. Megtanulta, hogy előrejelezze a környezet jövőbeli állapotát, megadtak neki egyes történéseket?

Ezt megtanulni nem ugyanaz, mint a környezet pixelekben történő ábrázolási készségének elsajátítása. Ha azt prognosztizáljuk, hogy egy vicc meg fog mosolyogtatni valakit, nagyon nem azonos a mosoly megjelenítésének képességével.

Ha Sora jelenteket vetít a jövőbe, valamit értenie kell a világból. Még nem sokat, de az első lépések nagyon ígéretesek.

süti beállítások módosítása