Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Az amerikai tudományos-technológiai munkaerő változásai

2024. június 14. - ferenck

Az Egyesült Államok Nemzeti Tudományos Tanácsának friss beszámolója alapján 2011 és 2021 között huszonkettőről huszonnégy százalékra nőtt a tudomány, technológia, mérnöki diszciplínák és matematika (STEM) területeken dolgozó amerikaiak száma. 36,8 millió személyről van szó, és az ország munkaerejének immáron közel negyedét jelentik.

Több mint felük nem rendelkezik felsőfokú végzettséggel, ezért a képzett műszaki munkaerő (skilled technical workforce, STW) kategóriába sorolták őket. 

us_stem_workers.jpg

Egy fontos összehasonlítás: a STEM-dolgozók foglalkoztatási rátája kevésbé, nyolcvannyolcról nyolcvanhat százalékra csökkent 2019 és 2021 között, a Covid éveiben, mint a nem STEM-dolgozóké: náluk nyolcvanháromról hetvenkilenc százalékra esett vissza a foglalkoztatottság. (A STEM-munkaerőről a napokban megjelent másik felmérés hasonló tendenciákra hívja fel a figyelmet.)

A beszámoló külön vizsgálta a külföldön született dolgozók STEM-alkalmazását. 2021-ben huszonhat százalék tartozott közéjük, tudományos-technológiai területen foglalkoztatottak tizenegy százaléka honosított, öt százaléka nem amerikai állampolgár.

Az USA remek munkát végez, hogy a világ minden tájáról magához vonzza a STEM-tehetségeket. Életbevágónak tartják a sokszínűség megőrzését, külföldi tanulók és szakemberek megtartását, érdeklődésük felkeltését az ország iránt. A tanács szerint az USA-nak tovább kell erősítenie ezt a képességet.

A STEM-munkaerő nagyon fontos az Egyesült Államok globális gazdaságbeli versenyképességének megőrzésében. Sok vállalkozás ezeknek az alkalmazottaknak a munkáján alapul, kulcsszerepet játszanak az innovációban és a technológiai fejlődésben, megkönnyítik a fejlesztések hasznos termékekké és szolgáltatásokká alakítását.

A STEM-dolgozók éves átlagkeresete magasabb, mint a nem STEM-dolgozóké, több a férfi, mint a nő. Főként fehérek és ázsiaiak dolgoznak ezeken a területeken, az afroamerikaiak csak nyolc (összességében tizenegy) százalék, a hispano-amerikaiak pedig tizenöt (összességében tizennyolc) százalék.

Jogi csatározások közepette jön a Samsung okosgyűrűje

A Samsung pert indított az amerikai részleggel rendelkező, az adóparadicsom Delaware szövetségi államban bejelentett Oura finn startup ellen, hogy a Galaxy Ring augusztusi piacra dobásáig kezelje a viselhető (wearable) technológiájuk körüli esetleges jogi vitákat. A startup San Franciscói irodájában ötvennél több alkalmazott dolgozik, és az USA más nagyvárosaiban szintén jelen vannak.

A kereset szerint az Oura viselhető eszközöket fejlesztő kisebb versenytársai (Ultrahuman, Circular, RingConn) beperelésére használja portfolióját, és most ugyanezt teheti a Samsung ellen is.

galaxy_ring.jpg

Furcsa lépés: egy megavállalat beperel egy startupot, mert meg akarja akadályozni, hogy az utóbbi ellene adjon be keresletet.

Az Oura megnyilvánulásai és nyilvános bejelentései azt mutatják, hogy továbbra is szabadalomsértést követnek el az amerikai okosgyűrű-piacra belépő cégek, köztük a Samsung ellen. A januárban részleteiben, fizikai modellként a februári Mobil Világkongresszuson bemutatott Galaxy Ring bejelentésére azonnal portfoliója szellemi tulajdonának erejét hangsúlyozva reagált – állítja a Samsung, majd nyomatékosítja: az okosgyűrű semmiféle szabadalmi jogot nem sért.

galaxy_ring0.jpg

A Galaxy Ring május közepére véglegesült, tömeges gyártása június közepén kezdődik.

A keresetben az is szerepel, hogy a Samsung bejelentése után az Oura százötvennél több szabadalmát reklámozva, végigturnézta a médiát. Egy interjúban a startup ügyvezető igazgatója, Tom Hale azt sugallta, hogy cége felhasználhatja szellemitulajdon-portfolióját a Samsung ellen.

A dél-koreai multinacionális cég szabadalmi trollként igyekszik bemutatatni az Ourát. Jogi vitáik nagy része az okosgyűrűk minden kategóriájában azonos tulajdonságokra, funkciókra vonatkoznak: elektronikára, szenzorokra, elemre és az egészségügyi mutatókat számszerűsítő pontokra – érvel a Samsung.

Bő tíz éve az Apple-t is hasonlóval vádolta okostelefon-fronton. Az almás cég az egész iparágban használt, bevett, egyértelmű és elfogadott technikákat kívánt sajátjaként elfogadtatni – állították. A jogi csatározás eredményei a Samsung szemszögéből felemásak voltak.

Életeket ment a kórházi szívkockázat-modell

Kórházak mesterséges intelligenciával működő figyelmeztetőrendszereket használnak gyors beavatkozást igénylő betegek azonosításához. A sürgősségi termekben ilyen rendszerek monitorozzák páciensek esetleges vérmérgezését, előrejelzik, szükségük van-e intenzív kezelésre, és a kórházból távozottak további gyógykezelésével kapcsolatban szintén prognosztizálnak. A figyelem legsürgősebb esetekre irányításával az intézmény erőforrásainak elosztásában is hatékonyan közreműködnek.

A Tajvani Nemzetvédelem Orvosi Központjának kutatói páciensek szívműködését elemző rendszert fejlesztettek. Ha nagy az elhalálozás kockázata, a rendszer figyelmezteti az orvosokat. A véletlenszerű klinikai teszten jól teljesített, nagykockázatú betegeknél jelentősen csökkentette a halálesetek számát.

szivkockazat_modell.jpg

Bármilyen típusú orvosi beavatkozásnál ritka a halálozások ilyen mértékű csökkentése. A kutatók szerint a rendszer nemcsak közvetlenül segít a sürgősségi esetek azonosításával, hanem az orvosok által nem értett vagy felderíthetetlen elektrokardiogram-jegyeket is észlel.

Konvolúciós ideghálót gyakoroltattak hozzá. A szív elektromos aktivitását mérő elektrokardiogrammal pontozza, majd más betegekével összehasonlítja az adott beteg halálának kockázatát. A kilencvenöt vagy magasabb százalék kilencven napon belüli halált valószínűsít.

A rendszert két kórház tizenhatezer betegén, kilencven napig tesztelték. 

A kísérleti csoport betegeit elektrokardiogrammal mérték, az eredményeket a rendszerbe táplálták. Magas kockázatú páciensek azonosításakor figyelmeztette az ügyeletes orvost. A kontrollcsoport szokásos kezelést kapott. A modell figyelte az elektrokardiogramjukat, orvosaik viszont csak a teszt után látták az eredményeket.

A teszt során a kontrollcsoport 8,6, a kísérleti csoport 8,9 százalékánál fordult elő magas kockázat. Utóbbiban tizenhat, az előbbiben huszonhárom százalékuk hunyt el (összességében 3,6 és 4,3 százalék).

A modellt mindenféle halálozási ok előrejelzésére tanították be, ám a szívproblémák miatti halálozást szokatlan pontossággal prognosztizálta. A kísérleti csoport betegeinek 0,2 százaléka hunyt el szívprobléma miatt, míg a kontrollcsoport 2,4 százaléka, ami óriási különbség.

A mesterséges intelligencia demisztifikálása a generatív művészetekben

A Kaliforniában élő török Refik Anadol a világ egyik legismertebb és leginnovatívabb kortárs képzőművésze. Los Angelesi stúdiója legalább 2016 óta foglalkozik a mesterséges intelligencia adta lehetőségek művészi kiaknázásával, speciális algoritmusok fejlesztésével. Az MI-ket lenyűgöző vizuális élmények alkotására tanítják be; Anadol epikus és hipnotikus hatású mozgóképes munkáit a földkerekség számos galériájában, változatos környezetekben mutatják be. Egyik utolsó darabja a tavasszal Londonban bemutatott A Föld visszhangjai: élő archívum (Echoes of the Earth: Living Archive) volt.

A kiállítás résztvevői három munkát tekinthettek meg flóráról és faunáról, a Nagy Természetmodell (LNM, Large Nature Model) algoritmus prezentálásában. A teljes immerziót garantálva, a valósidejű generatív darabokat hangok és illatok kísérték, új nézőpontból mutatva be természetet és éghajlatváltozást.

refik_anadol0.jpg

Ezek a művek az MI-t és a vele történő alkotási folyamatot demisztifikálni is hivatottak, egyben mások számára hozzáférhetővé tenni, hogy minél többen használják.

Az LMN-be 4,5 milliárd korallzátony- és esőerdő-képet, félmillió illatmolekulát, huszonötezer madárének-hangot tápláltak Az anyagokat hónapokon keresztül, jogtisztán gyűjtötték össze, Anadol például a projekt miatt három hónapig esőerdőben élt.

refik_anadol.jpg

A folyamatosan bővülő élő archívum a természetnek szentelt első nyílt forrású generatív MI-modell. A fizikai és a digitális világ, a mesterséges intelligencia és a közönség közötti hídként értelmezhető, oktató, inspiráló és hipnotizáló műalkotások a kiállítás alatt szintén állandóan változtak.

refik_anadol1.jpg

Anadol célja oktató jellegű is: sok más művésszel ellentétben nem hadovál elvont és megfoghatatlan folyamatokról, jelenségekről, hanem érthetően igyekszik elmagyarázni az MI lehetőségeit, jó célra, mint a korallzátonyok és az esőerdők, veszélyeztetett ökoszisztémák megmentésére, a környezetvédelem promótálására történő alkalmazását. 

refik_anadol2.jpg

A stúdió jutalékokból és NFT-k (nem helyettesíthető zsetonok) eladásából, az MI használatával dollármilliókat gyűjtött össze. A pénzt az éghajlatváltozás sújtotta közösségeknek, például esőerdőkben élőknek adományozták.

„A természet a legintelligensebb technológiánk. Meg kell tanulnunk tisztelni és óvni” – nyilatkozta Anadol.

Az USA lassítja mesterségesintelligencia-chipek közép-keleti exportját

Az Egyesült Államok és a Kínai Népköztársaság chipháborúja újabb fronton, a Közép-Keleten folytatódik. 

A Bloomberg a témában jártas névtelen forrásra hivatkozva ugyanis azt állítja, hogy az USA Kereskedelmi Minisztériuma az utóbbi hetekben vagy késleltette a választ, vagy egyáltalán nem válaszolt az Nvidia, az AMD, az Intel és a Cerebras Systems engedélykérelmeire. A kérelmek az Egyesült Arab Emírségekbe, Szaúd-Arábiába és Katarba történő eladások engedélyeztetésére vonatkoztak.

nvidia_amd.jpg

Amerikai cégeknek speciális licenc kell a kormánytól fejlett chipek és chipek gyártásához szükséges eszközök ezen országokba történő értékesítéséhez.

A minisztérium reakciója – pontosabban a reakció hiánya – részben azzal magyarázható, hogy igyekeznek megakadályozni kínai cégek közép-keleti mesterségesintelligencia-chipvásárlását. Az eddigi korlátozásokat és tiltásokat pontosan így, harmadik országon keresztül is igyekeztek megkerülni. Ez a kiskapu most bezárulhat.

Mivel érzékeny technológiákról van szó, az érintett tisztviselők állítólag bármi másnál gondosabban, tüzetesebben tanulmányoznak minden egyes kérelmet.

Eközben amerikai hivatalos személyek nemzetbiztonsági felülvizsgálatot végeznek az érintett országokban fejlesztett MI-technológiákról. Egyelőre nem tudni, hogy az anyag mennyi idő alatt készül el, milyen hosszú lesz, és mi számít nagyszabású szállítmánynak.

Az USA főként az utóbbiakra összpontosít, és köztudott: Szaúd-Arábia és az Emírségek rengeteg chipet importálnak MI-adatközpontjaikhoz. Szaúd-Arábia negyvenmilliárd dollár befektetéssel kívánja felvirágoztatni a helyi mesterséges intelligenciát, 2030-ra a terület meghatározó szereplőjévé, nemzetközi MI-csomóponttá akarnak válni. A cél eléréséhez amerikai csúcsbefektetőkkel is együtt dolgoznak. 

A Microsoft emírségekbeli mesterségesintelligencia-fejlesztő cégcsoportba invesztált áprilisban másfélmilliárd dollárt. MI-technológiáikat velük közösen kívánják terjeszteni a régióban.   

Csak mesterséges intelligenciával lehet védekezni mesterséges intelligencia ellen

ChatGPT-hez hasonló mesterségesintelligencia-modellek képesek azonosítani számítógépes kódok hibáit, így használóik, etikus hackerek jutalmat kérhetnek a megtalálásukért. 

Mások alkalmanként nemlétező hibákról számolnak be, majd többezer dollárt kérnek a kéretlen „segítségért.” Leírásuk egyébként realisztikus, ám nonszensz anyag, tovább bővítve a kamuhírek (fake news) világát. Emberi aggyal egyre nehezebb megállapítani ezekről a beszámolókról, hogy melyik valódi, és melyik hamis.

ai_bug.jpg

És ez csak a jéghegy csúcsa.

Az MI rosszindulatú felhasználása ellen globálisan igyekeznek fellépni. Az ENSZ múlt hónapban szavazta meg az emberi jogokat, személyes adatokat és az MI kockázatok miatti folyamatos megfigyelését javasló határozatot (nem törvényt). Az EU hozott már törvényt, az USA és az Egyesült Királyság bilaterális memorandumot írt alá MI-biztonsági együttműködésükről. Az Egyesült Államokban négyszáznál több mesterséges intelligenciáról szóló törvényjavaslat várja, hogy döntsenek róluk. Kérdés persze, hogy mire lesznek/lennének jók: hatékonynak bizonyulnak a digitális alvilág ellen, vagy a kutatásokat, fejlesztéseket lassítják le? És mennyire lesznek naprakészek, amikor érvénybe lépnek? Valószínűleg semennyire…

ai_bug0.jpg

MI-szoftverek frontján társadalmi mérnökösködéstől (social engineering) malware-ek nagy nyelvmodellekbe (LLM) ágyazásáig, egy ideje igen aktívak a bűnözők. Rosszindulatú hackerek mind gyakrabban készítenek mélyhamisítványokat (deepfakes), honlap-klónokat, megváltoztatják a forráskódot, hogy a malware megkerülje az őket detektáló és kategorizáló YARA (Yet Another Recursive Acronym, „még egy rekurzív mozaikszó”) szabályok, egy „nyílt forrású mintaegyeztető svájci bicska” általi detektálást. A szabályok malware-ek, fenyegetések típusait definiáló utasítások sora. A bűnözők természetesen úgy írják át MI-vel a kódot, hogy a listán szereplők egyikével se egyezzen.

Komoly probléma, hogy a széles körben használt hagyományos kiértékelési kritériumok gyorsan elavulnak, és az idő a támadóknak kedvez. Az MI-modellek rakétasebességgel javulnak, lehetőségeik nevetségessé teszik a kiértékeléseket.

Lényegében csak MI-vel lehet védekezni MI ellen, mert az ember, még a tanult törvényszéki nyomozó is nehezen veszi észre az egyre kifinomultabb csalásokat.

Világcsúcs: soha nem volt még ennyi elektróda agyi implantátumban

Az agy-számítógép interfészeket (brain-computer interface, BCI) fejlesztő Precision Neuroscience, Elon Musk Neuralinkjének legnagyobb vetélytársa bejelentette: új világcsúcsot állítottak fel az élő emberi agyra helyezett, idegsejteket letapogató elektródák számában – 4096-tal bőven rávertek a tavaly beállított eddigi rekord 2048-ra.

Ha ilyen sűrűn helyezik el az elektródákat, az idegsejtek tevékenysége korábban soha nem látott felbontásban, precizitással térképezhető fel. Jobban segítenek gondolatok szándék szerinti cselekvéssé dekódolásában. A cég a beszéd és a mozgás képességét szeretné visszaadni stroke vagy gerincoszlop-sérülés miatt lebénult betegeknek.

precision_neuroscience.jpg

A Precision Neuroscience-et 2021-ben az egykori Neuralink-társalapító idegsebész-mérnök Ben Rapaport alapította három társával (kettő közülük szintén a Neuralinket hagyta el). Musk cégével az invazív agyi implantátumok gyakran emlegetett biztonsági problémái miatt szakítottak. Cégük alapfilozófiája a minimális beavatkozás, a méretezhetőség és a biztonság.

A Neuralink mostani BCI-eszköze 1024 elektródát tartalmaz 64, hajszálnál vékonyabb huzalra elosztva. A huzalok három-öt milliméterig hatolnak az emberi agyba, de most már a nyolc milliméter is engedélyezett.

A Precision Neuroscience technológiájához nem kell behatolni az agyba, mert a tetejére helyezik. Az eszköz legalább egy, az emberi hajnál ötször vékonyabb sárga filmet tartalmaz. Filmenként 1024 elektródát rácsmintázatba ágyaznak. Mivel az eszköz moduláris, több film ágyazható minden egyes eszközbe (négy filmmel jön ki a 4096).

A filmeket minimálisan invazív műtéttel csúsztatják az agyra: csak egy vékony rés kell a koponyán, amin az agy felületére csúsztatják a szalagszerű sárga eszközt. Az elektródák adatait feldolgozó egység a koponya és a fejbőr között helyezkedik el. A filmet úgy tervezték, hogy ha az implantátumot el kell távolítani az agyból, sérülésokozás nélkül kicsúsztatható belőle.

Áprilisban jóindulatú tumor eltávolítása után, egy alvó páciens nyitott koponyájában helyezték el a 4096 elektródás négy filmet. Az eszköz mintegy nyolc négyzetcentiméter terület neurális tevékenységét rögzítette.

Rapaport szerint a felvétel fontos lépés egy új korszak felé. Ha ekkora területen és léptékben képesek vagyunk kritikus információ gyűjtésére, sokkal mélyebben megérthetjük az agyműködést.

Ez volt a tizennegyedik alkalom, hogy az eszközt emberi agyra csúsztatták. 2025-ben várható a kereskedelmi forgalmazás.

Agyával akar vezérelni Tesla-robotot a Neuralink első páciense

Az 1995-ös születésű Noland Arbaugh az első és eddigi egyetlen humán Neuralink-páciens 2016-ban, úszás közben szenvedett bénulást. Idén esett át az agyi beültetés műtéten. Elon Musk vállalata évek óta fejlesztette a technológiát, és a közfelháborodást kiváltó, botrányos majomkísérletek után, 2024-ben kapták meg a szükséges engedélyeket ahhoz, hogy alkalmazhatják emberre.

Arbaugh agyi implantátumával, tehát gondolati úton képes már videójátékot irányítani, és vágya, hogy kapjon egy Tesla Optimus Robotot, amelyet szintén elméjével vezérelne. A robot mindent megtenne neki, lényegében ápolójává válna – nyilatkozta.

neuralink_2.jpg

Később Tesla-járművet is szeretne. Szintén gondolati úton, az agyába ültetett Neuralink-eszközzel vezetné.

Egyelőre azonban nem tart még sem a robotnál, sem a kocsinál, mindennapos cselekvésekre, például zene és hangoskönyvek lejátszására viszont képes már, amelyek önmagukban óriási előrelépésnek számítanak.

neuralink0_2.jpg

Az implant használatához nem kell különösebben komoly agytevékenység, elég arra gondolnia, merre akarja mozgatni a kurzort. A beültetéssel annyira elégedett, hogy idővel, családját segítendő, távmunkában kíván otthonról dolgozni.

Az X-en (a korábbi Twitteren) online közvéleménykutatást végzett. Bejelentette, hogy dolgozni, családjának pedig házat építeni akar. A kérdés arra vonatkozott, hogy pénzzé tegye-e közösségimédia-fiókjait, streamelje-e videójátékos tevékenységét, indítson-e GoFundMe közösségitámogatás-kampányt, vagy mindezt egyszerre tegye. Ötvenhat százalékkal a „mindent egyszerre” opció nyert.

A beültetés óta néhány vezeték lassan meglazult az agyában, és az implantátum nem működött rendeltetésszerűen. A Neuralink mérnökei azonban módosítottak a szoftveren, és a rendszer stabilizálódott. Arbaugh mindenesetre nem idegeskedik már miatta.

Közben a Neuralink a második műtétet tervezi. Arbaugh segíteni szeretne az újabb páciensnek.

A Sony betámadta a generatív mesterséges intelligenciát

A lemezipar legnagyobb üzleti és legtöbb kiadót tömörítő vállalkozása, az UMG (Universal Music Group) tavaly szólította fel az Apple Musicot és a Spotify-t, hogy blokkolják felvételeit az azokat letöltő mesterségesintelligencia-fejlesztők elől, illetve MI-vel generált UMG-szerződéssel védett anyagok eltávolítását indítványozta a YouTube-nak és a Spotify-nak.

Áprilisban kétszáznál több zenész szólította fel a streaming-szolgáltatókat és az MI-fejlesztőket, hogy fejezzék be munkáik ingyenes használatát modellek gyakoroltatására.

sony_versus_ai.jpg

Az UMG legnagyobb versenytársa, a képzeletbeli dobogó második helyét elfoglaló és 2023-ban a piac huszonhárom százalékát uraló Sony Music Group májusban lépett (az UMG részesedése harminckét százalék). Bejelentette, hogy MI-fejlesztők a csoport szellemi tulajdonához tartozó zenéken engedély nélkül tanítottak be modelleket, és a cég által birtokolt média- és más adatok bármilyen gyűjtése sérti a szerzői jogokat. Egyelőre nem derült ki, hogy a fejlesztők valóban jogsértő tevékenységet követtek-e el.

A Sony levélben is értesítette őket, és a tiltás dalszövegekre, zenei videókra, albumokra egyaránt kiterjed: „nem használhatók bármilyen MI-rendszer gyakoroltatására, fejlesztésére, kereskedelmi forgalmazására.”

Több mint hétszáz fejlesztő és streaming-szolgáltató kapta meg a levelet. A fejlesztőknek meg kell mondaniuk, milyen munkákat használtak modellek trenírozására. A felszólítottak között szerepel a Google, a Microsoft, a szövegből zenét generáló appok, a Suno és az Udio mögötti vállalatok.

A streaming-szolgáltatóktól (köztük az Apple-től és a Spotify-tól) felhasználási szabályzatuk módosítását kérték, hogy senki ne használhassa a platformokat a Sony szellemi tulajdonának gyűjtésére. A kiadó viszont fenntartja magának a jogot, hogy bizonyos fejlesztőknek engedélyezze anyagai oktatási gyakorlóadatként történő használatát. Ha meg akarnak egyezni, e-mailen vegyék fel a kapcsolatot a Sonyval – áll a közleményben.

Nem véletlen a lemezipari nagyágyú figyelmeztetésének időzítése. Az MI-vel generált zenék minősége mostanában kezdi elérni a mainstream közönség ingerküszöbét, és a jövőben nyilvánvalóan még jobbak lesznek, tehát komoly bevételek jöhetnek össze belőlük.

2024 a multimodális mesterséges intelligenciák éve

A nagy mesterségesintelligencia fejlesztők közötti verseny egyre elképesztőbb tempóban eredményez egyre jobb modelleket. Az OpenAI GPT-4o-ja multimodális (teljeskörű) inputtal és outputtal mutatja meg a végpontok közötti modellezés értékét. 

Jelentős teljesítmény- és gyorsaságnövekedés, költségcsökkenés az eredmény. Tokenek gyorsabb és olcsóbb feldolgozásával az MI érzékenyebbé válik, gyengülnek a hatékony ágensfolyamatok használatának akadályai, míg kép-, hang- és szövegfeldolgozás nagyobb integrációjával praktikusabbak a multimodális alkalmazások.

multimodalitas.jpg

A GPT-4o mellett megjelent a Google Gemini 1.5-e, és a Meta is bejelentette a Chameleon modellt. A „média-mindenevők” rivalizálásával fejlesztők és felhasználók egyaránt jól járnak, biztosak lehetünk abban, hogy 2024-ben további izgalmas appokkal szaporodnak a lehetőségeink.

A GPT-4o – az „o” az „omni”, azaz a minden (előtag) rövidítése – gyorsabban, olcsóbban és sok esetben pontosabban fogad el és generál szöveges, képes, mozgóképes és hanganyagokat. 

multimodalitas0.jpg

Szöveg és kép input, és csak szöveg output a ChatGPT-n keresztül most is elérhető, és hamarosan jönnek a képek is. Beszéd input és output fizető felhasználók számára lesz hozzáférhető a következő hetekben. Az audiót és a videót első körben a partnerek használhatják, és csak utánuk a szélesebb nyilvánosság.

A GPT-4o-t többfajta médiatípuson gyakoroltatták, hogy szintén többfajta médiatípust és a köztük lévő kapcsolatokat gyorsabban és pontosabban dolgozza fel, mint a GPT-4 különféle médiatípusokat külön-külön kezelő korábbi változatai. A kontextus hossza a GPT-4 Turbo verziójával azonos, viszont jóval a Gemini 1,5 Pro modell által újonnan beállított kétmilliós limit alatti 128 ezer token.

Teljesítményét illetően, az összehasonlító teszteken több területen felülmúlta a Gemini Pro 1.5-öt: szöveg, kód és kép megértésében. Szövegfelismerésben jobban vizsgázott, mint a saját Whisper-larger-v.3, szövegek beszéddé alakításában (speech-to-text) pedig a CoVoST 2 fordítót „verte meg.”

Csak júniusban járunk, de már borítékolható, hogy 2024 a multimodális generatív MI-modellek éve lesz!

süti beállítások módosítása