Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Működésre kész Dél-Koreai első kvantumszámítási csomópontja

2024. november 20. - ferenck

A Yonsei Egyetem nagyon komoly teljesítményre képes, 127 qubites IBM-géppel a középpontban, létrehozta Dél-Korea első kvantumszámítási csomópontját (hub). A kvantumkomputernek háromméteres üvegkocka ad otthont, és közel abszolút zéró fokra (-273 Celsius-fok) hűtötték le.

A csúcskategóriás processzort az IBM legmasszívabb gépét most telepítették először az Egyesült Államokon kívül. Egyelőre próbamódban működik, maga a központ november huszadikán nyílik meg hivatalosan.

delkorea_kvantum.jpg

Az esemény mérföldkőnek számít Dél-Korea informatikatörténetében. A központ az iparági együttműködésekre, szakterületi tehetségek kinevelésére igyekszik összpontosítani.

Más szempontból is speciális: az országban ez az első száz qubitet meghaladó gép. Valóban „értelmezhető” kutatásokhoz a száz kvantumbit a minimum. Dél-Koreában eddig csak nagyjából húsz qubit körüli kísérleti rendszereket használtak, az IBM gépével szignifikáns mértékben nőnek a lehetőségek, valóban új korszak kezdődik.

A kvantumszámítások egyelőre inkább a jövő, mint a jelen egyik fontos exponenciális technológiája. A Google 53 qubites gépe például kétszáz másodperc alatt végzett el olyan számításokat, amelyekhez mai szuperszámítógépeknek tízezer évre lett volna szükségük.

Emlékeztetőül: a Yonsei Egyetem rendszerének teljesítménye több mint a Google-gép duplája. Ezek a komputerek olyan területeken remekelnek, mint például a kriptográfia, ahol nagyléptékű párhuzamos számításokat végeznek. Egyes becslések alapján klasszikus komputerekkel százmillió évig tartó feladatok egy perc alatt megoldhatók olyan fejlett kvantumgépekkel, mint a dél-koreai.

Ezeket a becsléseket persze a gyakorlatban is be kell bizonyítani, és a kvantumszámításokat végző termékek kereskedelmi forgalmazása előtt még nagyon komoly kutatásokra van szükség.

A Yonsei Egyetem kutatói elmondták, hogy elsősorban biotechnológiai alkalmazásokkal terveznek foglalkozni: gyógyszer-szerkezetek előrejelzésével, ígéretes gyógyszerek azonosításával. A technológiával tíz-tizenöt évről a felére rövidíthetők ezek a kutatások.

A központhoz közel, mintegy 8500 négyzetméteres területen kvantumszámítási komplexum is épül. A létesítmény rendeltetése az IBM kvantumtechnológiájával megkönnyíteni az akadémiai és az ipari szektor együttműködését.

Elem nélküli szenzorok

A big datával az adat kvázi mindenhatóvá vált, a dolgok internete (Internet-of-Things, IoT) gyors növekedésével egyre többhöz és könnyebben férünk hozzá. Világunkat szenzorok, okos eszközök és szoftverek kapcsolják össze a számítási felhővel, lehetővé téve az adatmegosztás és elemzés új módszereit.

Csakhogy ezeknek az eszközöknek a döntő többsége elemmel/akkumulátorral működik, és a változások nehezen érzékelhetők valós időben.

elem_nelkuli_szenzorok.jpg

A San Diegói Kaliforniai Egyetem friss kutatása előrelépéésel kecsegtet. Ottani kutatók nemcsak a passzív vagy az erőforrással való kapcsolat nélküli érzékelés ígéretes példáit mutatták be, hanem azt is, hogy az nagyon olcsón és speciális műszerek nélkül, széles körben elterjedt eszközökkel megvalósítható.

A jól ismert, ruháktól kezdve könyvekig, számtalan tárgyba beágyazott rádiófrekvenciás azonosító (RFID) címkékből indultak ki. Az általában kicsi és rugalmas címkék chipről RFID-olvasóra továbbítják az adatokat. A feldolgozást az olvasó végzi, és számítógépes programra küldi értelmezésre.

Az RFID-címkék olcsó chipeken futnak, és mivel a kiskereskedelemben kilencven százalékos az elterjedtségük, széles körben, könnyen elérhetők.

A passzív érzékelést ma általában analóg-digitális konverzióval érik el, ami ugyan működik, viszont nagyon energiaigényes, nehezen skálázható, összességében fenntarthatósági problémák merülnek fel vele. 

A kaliforniai kutatók átalakító és elem nélkül, a környezet automatizálásával, az IoT-re kapcsolódással, nyers adatok olvasóra küldésével próbálkoztak.

Analóg érzékelésükkel közvetlenül észlelhetők környezeti jelek. Digitális interfészekkel ellentétben, az analógok a szenzorok által előidézett feszültség-/áramváltozást vezeték nélküli jel paramétereivé alakítják át. Ugyan többen fejlesztettek már passzív analóg érzékelőrendszereket, de azok csak egyedi alkalmazásokban működnek, minden összetevőt újra kell tervezni, hogy az egész általános rendeltetésű legyen.

A kaliforniai kutatók pont ezért választották az RFID-címkéket: telepítésükhöz nem kell speciális hardver, kereskedelmi forgalomban könnyen és olcsón beszerezhetők. Elemmentes megoldásukat olyan felhasználói esetekben tanulmányozzák, mint a mezőgazdaság automatizált öntözőrendszerei, sportolók teljesítmény-mérése, vagy parkolóházak elfoglaltsági szintje. 

Mindhárom esetben nagyon fontos, hogy rendelkezésre álljanak valósidejű adatok.

Tesztelik az Amazon új szállítódrónját

Az Amazon megkapta az amerikai Szövetségi Repülési Hivatal (FAA) engedélyt szállítódronja kisebb, csendesebb változatához. Az engedély nagyobb távolságra és pilóták látókörén túli repülésre vonatkozik.

Az Amazon Prime Air programja májusban hasonló engedélyt kapott, annyi különbséggel, hogy működési területét a korábbi tesztek helyszínére, a texasi College Station-re korlátozták.

amazon_12.jpg

Ezzel újabb lépéssel kerültek közelebb futurisztikus tervük, a szállítás teljes automatizálásának megvalósításához. Jeff Bezos, a nagyvállalat alapítója több mint tíz éve beszélt először róla, akkor nagyjából öt évre lőtte be a megvalósulást. De hiába fektettek bele dollármilliárdokat, a fejlesztés nagyon lassan megy.

A Prime Air-rel sok szabályozási gond adódott, csúsztak a határidők, a vállalat masszív elbocsátásokat végzett, csökkentették a kiadásokat, a drónprojekt néhány vezetője is távozott. A teszthelyszínek, köztük College Station lakói gyakran elégedetlenkedtek, például a nagy zajra panaszkodtak. A polgármester meg is kereste az FAA-t. Az Amazon közölte a lakókkal, hogy 2025 októberéig másik indítóállomást találnak a közelben. 

amazon0_9.jpg  

Az MK30 nevű új drónt 2022 novemberében mutatták be. Korábbi modellekkel összehasonlítva, enyhe esőben is tud repülni, és kétszer annyi távolságot képes megtenni. 

A drónos házhozszállítást meg is kezdték az arizonai főváros, Phoenix környékén. Az Amazon áprilisban jelentette be, hogy a kaliforniai Lockeford teszttelep bezárását követően, a Phoenixtől nyugatra fekvő Tolleson-ban tervezi a dróntevékenység felpörgetését.

A Prime Air drónt az egyik ottani raktárba viszik, mivel a gép már meglévő logisztikai hálózatba integrálásával fel kívánják gyorsítani a kiszállításokat.  

Az Amazon nincs egyedül. Az Alphabethez (Google) tartozó Wing, a UPS, a Walmart és egy sor startup, köztük a Zipline és a Matternet szintén gőzerővel dolgozik a drónos házhozszállításon. Ha ekkora a versengés, általában az ügyfél jár jól.

Értelmetlenek az MI-modelleket összehasonlító referenciaértékek?

A gépi tanulás fejlődésének egyik fontos mutatója, hogy a begyakoroltatott modellek képesek-e a tanulás során nem tapasztalt problémákra eredményesen reagálni. Erre vannak a referenciaérték-tesztek (benchmarking). Csakhogy a tesztproblémák közül egyre több bekerült a képzési adatkészletekbe, amivel lehetetlenné vált a fejlődés akkurátus ellenőrzése.

Kutatók több széles körben használt referenciateszt-anyagban vettek észre nyugtalanító jeleket: egyes elemeik valahogy beszivárogtak a gyakorló adatok közé.

benchmark_1.jpg

Az érettségi szintű matekproblémák teszteléséhez használt referencia-anyagon népszerű modellek feltűnően jobban teljesítettek, mint az alternatív teszteken. Csak egy magyarázat van rá: előzetesen láthatták a tesztsort vagy valami hasonlót.

Kutatók kimutatták, hogy referenciaértékek szennyezték a GPT-4 gyakorlásához használt adatkészletet.

Egy 2023-as tanulmányban kiértékelték, hogy a GPT-4 mennyire boldogul versenyszintű kódolási problémákkal. Kiderült, hogy 2021-es vagy korábbi versenyek problémáit könnyen megoldotta, későbbiekkel viszont komoly gondjai akadtak. Valószínűleg régebbi versenyeken gyakoroltatták. Az OpenAI idén bejelentette, hogy a GPT-4o-nál orvosolták a problémát.

Szubjektív értékelésnél szintén lehetnek komoly gondok. Az LMSys Chatbot Aréna is ilyen. Ha a modellek korábban használták az LMSys promptjait, jobban teljesítenek. Megoldásként az újonnan létrehozott Arena-Hard-ból és BenchBuilder-ből kiszedték a leggyakrabban használt promptokat.

A tesztek kiszivárgásának súlyos hosszútávú következményei lehetnek. Olyan, mintha egyetemi vizsga előtt a diákok hozzájutnának a vizsgakérdésekhez. Ezeknek a modelleknek nem azért javul a teljesítménye, mert annyit fejlődtek, hanem mert előzetesen ismerték a tesztet. Így viszont nem mérhető hitelesen az adott MI, és nem tudjuk, hol tart.

Megoldás lehet adatsoron belüli egyedi markerek alkalmazása, velük kiszűrhető a referenciaértékekkel való szennyeződés. Másik megoldás maguknak az értékeknek a folyamatos javítása, újabb és jóval nehezebb problémák bevezetésével. Persze a másolatok akkor is meg fognak jelenni a weben, amit úgy küszöbölhetünk ki, hogy a referenciaérték-tesztet csak privát szervereken futtatjuk.   

Walt Disney: új részleg koordinálja a kiterjesztett valóság és a mesterséges intelligencia használatát

A Disney csoportot hoz létre a mostanában berobbant technológiák használatának koordinálására. Elsősorban a mesterséges intelligenciáról és a kiterjesztett valóságról (AR), valamint az AR és a virtuális valóság (VR) kombinációjáról, a kevert valóságról (mixed reality, MR) és a szintén az ebbe a technológiacsaládba tartozó, még újabb kibővített valóságról (extended reality, XR) van szó.

A médiaóriás több területen – filmekben, televíziós produkciókban, témaparkokban – igyekszik kiaknázni az ezekben rejlő lehetőségeket.

disney_1.jpg

A csoportot az Apple Vision Pro, kevertvelóság-headset Disney appjának fejlesztését levezénylő Jamie Voris fogja vezetni. Az MI és az XR fejlődési üteme és az elterjedés mértéke olyan gyors most és a közeljövőben, hogy évekig meghatározza a felhasználói élményt, a kreatív munkát és a kapcsolódó üzleti tevékenységeket. A Disney számára kritikus az ígéretes lehetőségek kiaknázása és a potenciális kockázatok feltárása – magyarázza Alan Bergman, a Disney Entertainment társigazgatója.

A több mint százfős létszámra tervezett, szakértői részleg megalapítása egyértelműen jelzi, mennyire elkötelezettek az új technológiák használata iránt. Először csak az MI-re gondoltak, hogy hogyan tudják használni a szórakoztatóiparban, aztán bővítették a kört. Az AR alkalmazásaival eleve több részleg foglalkozik már: hogyan alkalmazzunk digitális elemeket a valóvilágban? A VR-rel, a szimulált közegben történő elmerüléssel és az MR-rel úgyszintén.

A szórakoztatóipari óriás hatalmas szakértelemmel rendelkezik az új technológiák területén. Amióta a nehéz VR headseteket és ormótlan szemüvegeket könnyebbekkel helyettesítették, a Disney lépésről lépésre alakította ki a technológiák legjavának kihasználására, a cég témaparkjaiban, a felhasználók lakásán és a mozikban új élményeket nyújtó megoldásokra fókuszáló csapatát.

2024-ben a techcégek kb. 1,7 millió AR/VR headsetet értékesítettek. A piaci részesedés 60,5 százalékával változatlanul a Meta az első, de nő a konkurencia, az Apple, a Sony és a TikTok mögött álló ByteDance veszélyt jelenthet Zuckerbergék egyeduralmára. Ráadásul a Google is jelezte idén, hogy visszatérhet az AR/VR businessbe.

Mesterséges intelligencia és energiahasználat

A mesterségesintelligencia-fejlesztések energiaszükséglete közismerten nagy, és a jövőben az igény növekedni fog. Energetikai szakértők félelme, hogy a folyamat az energiaforrások kimerüléséhez vezethet, a félvezető-gyártásban kulcsszereplő Tajvan szigetén már pár éven belül komoly problémák jelentkezhetnek: elképzelhető, hogy nem lesz elég áram a gyártáshoz. Másrészt, fosszilis üzemanyagok fokozott használatával nő a károsanyag-kibocsátás.

Az MI-fejlesztők nem hozzák nyilvánosságra energiaszükségletük mértékét, az OpenAI viszont már új források kutatására és új infrastruktúra kiépítésére ösztönözte az amerikai kormányt. A katasztrófa-forgatókönyv alapján a meglévő erőművek kimerülnek, nőhet a széndioxid-kibocsátás, nem fordítanak elegendő figyelmet a fenntartható energiaforrásokra.

mi_energiahasznalat.jpg

A Goldman Sachs szerint 2023 és 2030 között 160 százalékkal nő az adatközpontok energiaszükséglete, évi 200 (Goldman Sachs) és 300 (Wells Fargo) terawatt/órával az MI a növekedés egyötödét adja. Az áramszolgáltatóknak akár húsz százalékkal nagyobb igényt kell kielégíteniük, és így még jobban rá lesznek utalva a természetes gázokra és a fosszilis üzemanyagokra.

Szintén vészforgatókönyvekben szerepel, hogy a tendencia leállított szénalapú erőművek újranyitását eredményezheti, illetve például Virginiában máris több cég ütemezte át későbbi dátumra a zöldenergiára történő átállást.

A következőgenerációs Blackwell architektúrát használó minden egyes Nvidia GPU (grafikus feldolgozóegység) közel kétszer annyi energiát fogyaszt, mint a mostani topkategóriás H200. 2027-re 1,5 millió új egység készül el, míg a cég szerverei a mostani 85 helyett 134 terawatt/óra energiát fogyaszthatnak.

A techcégek zéró károsanyag-kibocsátás vállalásai nem teljesednek be. Ugyan alacsonyabb széndioxid-tartalmú energiaforrásokat használnak, de az összesített tevékenységgel mégis több károsanyagot generálnak. Ezért is fektetnek komoly összegeket a nap- és szélenergia mellett atomerőművekbe.

Az amerikai kormányra nehezedő nyomás egyértelmű: sokkal több pénzt kellene szénmentes energiaforrásokba pumpálniuk, amihez viszont működő rövid- és hosszútávú stratégiákat kellene kidolgozniuk.

Az MI azonban a megoldás része is lehet: tanulóalgoritmusokkal csökkenthető a fogyasztás, jobban kezelhető az energiafelhasználás. Segíthet megakadályozni vagy csökkentheti a széndioxid atmoszférába kerülését. Az atmoszféra, az óceán és az erdők monitorozásával szintén hozzájárul a klímaválság elleni küzdelemhez.

Változó színű és textúrájú 3D nyomatok

A többanyagos (multi-material) 3D nyomtatással lehetővé vált különféle anyagokból álló tárgyak egyetlen folyamatos fázisban történő printelése. Változatos színű és textúrájú, egyedire kidolgozott darabok hozhatók létre.

Az eljárásnak azonban megvannak a maga korlátai: lassú és drága, a mostani printerek nagy részénél cserélgetni kell a nyomtatófejet, az egyik anyagot el kell távolítani, mielőtt használjuk a másikat.

3dnyomtatas.jpg

Az MIT (Massachusetts Institute of Technology) és a hollandiai Delfti Egyetem kutatói kevesebb anyagveszteséggel járó, pontosabb eredményt hozó, hatékonyabb technikát dolgoztak ki. Hőre reagáló anyagokkal dolgozva éri el, hogy különféle színű, formájú és textúrájú tárgyak ugyanabban a nyomtatási ciklusban kivitelezhetők legyenek.

A kutatók „sebesség-szabályozott vasalásnak” nevezik két nyomtatófúvókás géppel működő módszerüket. Az első lerakja a hőre érzékeny nyomtatószálat, a másik a nyomtatott anyagon indít el különféle változásokat: a hő célzott alkalmazásával módosul az átlátszóság mértéke és a textúra. Ha felgyorsítjuk a második fúvókát, a hőmérséklet pontos variálásával, a nyomtatószál színe, a nüánszok és a keménység változtatható tetszés szerint.

3dnyomtatas0.jpg

A módszerrel művészi vizuális effektusok dolgozhatók ki: változatos színek, különféle szövésű felületeken. Kibővíti a 3D nyomtatás lehetőségeit. A második fúvóka egyedüli szerepe, hogy hőt generálva érjen el változásokat.

A kutatók háromféle hőreagens anyaggal tesztelték az eljárást. Az egyik habos polimer, a másik fa-, a harmadik parafarostokat tartalmazó nyomtatószál volt. Az első részecskéi hőhatásra kitágultak, így lehet változtatni a nyomat formáján, átláthatóságán és textúráján. A másik kettő szénnel kiegészíthető, hogy sötétebb árnyalatokat hozzanak létre.

A demonstráción részben áttetsző vízpalackokat nyomtattak. Más technikákkal tovább tartott volna, több energiát és anyagot használtak volna fel.

Miért riogatnak szakértők a mesterséges intelligencia veszélyeivel?

Több mesterségesintelligencia-kutató, fejlesztő fejezte már ki a terület gyors fejlődése miatti aggodalmát. A nem hozzáértők, esetleg MI-cégeknél dolgozó etikusok, filozófusok vagy történészek véleményét ugyan le lehet söpörni az asztalról, szakembereké viszont nem intézhető el kézlegyintéssel.

Miért túlozzák el a veszélyeket? – teszi fel a kérdést a néhány hónapja az Amazon igazgatótanácsában is dolgozó Andrew Ng gépitanulás-szakértő.

mi_riogatas.jpg

Elsőként a közvetlen okokat jelölte meg.

Nagy nyelvmodelleket (LLM) fejlesztő, tanító vállalatok szigorúbb szabályozást követelve gyakorolnak nyomást kormányokra. Az általuk javasolt szigorítás elsősorban a versenytársakat, köztük a nyílt forrású/nyílt súlyozás kezdeményezéseket sújtaná. 

Néhány kalandor szellemű vállalkozó a feltételezett veszélyekkel igyekezhet megnyerni új befektetőket. Ha a technológia valóban annyira hatékony, hogy komoly pusztítást képes végezni, megéri beleinvesztálni – hangozhat az érvelésük.

mi_riogatas0.jpg

A félelemkeltés vonzza a figyelmet, eredményes és olcsó módszer arra, hogy sokan beszéljenek cégekről, termékekről. Láthatóbbá válnak, relevánsabbnak tűnnek az MI-ről szóló diskurzusban.

Mások pedig azt mondhatják, hogy a versenytárs MI-fejlesztése ugyan veszélyes, az övé viszont biztonságos. Emellett ígéretet tesznek, hogy kijárják a szigorúbb szabályozást.

Ha ráveszik a törvényalkotókat, hogy megfelelési terheket rakjanak MI-fejlesztők vállára, nőhet az esély a szabályokat betartató új cégek alapítására.

Ng azt is megfigyelte, hogy többen először a minimális veszélyre figyelmeztetnek, amiért odafigyelnek rájuk, majd a figyelmet növelendő, egyre sötétebb jövőképeket vázolnak fel. Ha valaki ebbe az irányba lépett egyszer, az elkötelezettség és a következetesség elfogultságaként ismert pszichológiai jelenség vonatkozik rá: a későbbiekben nem akarja saját magát megcáfolni, hű marad eredeti elképzeléseihez, és akár a legelképesztőbb túlzásokig tovább megy ezen az úton.

Senki nem tagadja, hogy a technológiának vannak veszélyei, a sci-fikben felvázolt félelmek túlhájpolása viszont sokkal kockázatosabb lehet, mint maga az MI.     

Az Nvidia új modellje legyőzhette a GPT-4o-t

Az Nvidia különösebb felhajtás nélkül új mesterségesintelligencia-modellt vezetett be a piacra október közepén. A nagyvállalat mérnökei szerint a Llama-3.1-Nemotron-70B-Instruct (ez a neve) az MI Chatbot Arénában felülmúlta a legmodernebb versenytársakat, például a GPT-4o-t (OpenAI) és Claude-3-at (Anthropic).

Az új MI a Meta nyílt forrású Llama-3.1-70B módosított verziója, a Nemotron az Nvidia végeredményhez való hozzájárulására utal. A Meta nyílt forrású alapjaira fejlesztők szabadon építkezhetnek. A GPU (grafikus feldolgozóegység) gyártásban világelső vállalat a népszerű modelleknél „segítőkészebbet” akart fejleszteni.

nvidia_2.jpg

Speciálisan összegyűjtött adatsort, nagyon fejlett finomhangoló módszereket és saját csúcskategóriás MI-hardvert használtak a Meta-modellhez, hogy a bolygó „leginkább segítőkész” mesterséges intelligenciájává alakítsák. (Az nem derült ki, mit értenek a jelzőn.)

Egyelőre nincs teljesen egyértelmű módszer eldönteni, hogy melyik MI-modell a legjobb. Ez nem szobahőmérséklet mérése, nincs abszolút mérce megítélni a különféle mesterséges intelligenciák teljesítményét. 

Az összehasonlító tesztelés működik legjobban: különböző modellek ugyanazokat a lekérdezéseket, feladatokat, kérdéseket és problémákat kapják megoldásra, majd összehasonlítják az eredményeket (valamilyen szempont persze mindig kimarad), elsősorban, hogy melyik hasznos, melyik kevésbé az – aminek megítélése szintén szubjektív.

A Nemotron esetében úgy tűnik, nagyon szűk volt a különbség, ami azért is érdekes, mert a Llama-3.1-70B nem tartozik a Meta nyílt forrású csúcsmodelljei közé, léteznek sokkal masszívabb változatok is, például a 405B.

A kapacitások összehasonlításaként: a GPT-4o becslések szerint egybilliónál több paraméterrel fejlesztették, azaz a hetvenmilliárd valóban nem számottevő paraméter.

Gyorsabb és olcsóbb videókészítés

A videógenerálás, az egyik leggyorsabban fejlődő infokom technológia problémája, hogy óriási számítási kapacitások kellenek hozzá. Ha meg lehetne oldani kevesebb számítással, jelentősen bővülne a felhasználói kör.

Hollywood egyre jobban érdeklődik a technológia iránt, stúdiók gondolkoznak, hogy beépítsék a gyártást megelőző és a posztprodukciós munkákba.

videogeneralas.jpg

Kínai kutatók innovatív módszert találtak ki a probléma megoldására. A kódot és az előre gyakoroltatott modellt nem-kereskedelmi célokra és az éves egymillió dollárnál nem többet kereső cégek számára ingyen rendelkezésre bocsátják.

Azok a modellek, amelyek a zaj több lépésben történő eltávolításával generálnak kimeneteket, általában a zaj beágyazásból való eltávolítását tanulják meg tréning közben. A beágyazás kisebb mintájával indulnak, amelyet lépésről lépésre az eredeti mérethez közelítenek. Így a gyakorlás és a következtetés során kevesebb feldolgozást kell végezniük. A kínai kutatók modellje is így működik.

videogeneralas0.jpg

SD3 Medium képgenerátorral, kép-kódolóval és két szövegkódolóval dolgoztak. A képkódolót videóképkockák képeinek és szegmenseinek újraalkotására, az SD3 Mediumot a zaj nyolc videóképkockás beágyazásból való eltávolítására gyakoroltatták be. Szöveges és korábbi képkocka-szekvenciák beágyazásait adták meg neki. 

Kétféleképpen változtattak a bevett zajeltávolítási módszeren: térben és időben. Az elsőnél a beágyazás növelésével, az eltávolítottak utáni több zaj hozzáadásával. A lépések addig ismétlődnek, amíg a teljes méretű beágyazás zajmentes nem lesz. A másodiknál a beágyazás méretének folyamatos csökkentésével, korábbi képkockák hozzáadásával dolgoztak.

A szövegkódolók promptok alapján szöveg-beágyazásokat generálnak, amelyekből a zajokat eltávolítva, az SD3 Medium végül videót generál.

A modell jól teljesített a teszteken: a generált anyag esztétikailag, a mozgásokat és a promptokhoz való „hűséget” illetően más nyílt forrású modelleknél magasabb pontszámot ért el. Nvidia A100 GPU-n futtatva 241 hosszú képkockából 20700 óra alatt tanult meg videót készíteni. Egy másik jól teljesítő modell a gyorsabb Nvidia H100-on 37800 óra alatt tanult meg 97 képkockát létrehozni.

A különbség számottevő.

süti beállítások módosítása