Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

A Microsoft vezérigazgatója szerint nem szabadul el a mesterséges intelligencia

2023. február 17. - ferenck

A Google teljesen uralja a keresőmotor-piacot, a területen lényegében egyeduralkodó. Az állóvizet borzolhatja, hogy a Microsoft mesterséges intelligenciát integrált a megújított Bing keresőbe, ráadásul nem is akármilyen MI működteti, hanem az OpenAI híres ChatGPT-jének az egyik változata.

A chatbothoz hasonló beszélgető formában az új Bing szinte minden kérdésre érdekes és érthető válaszokat ad, bár a pontossággal akadnak még problémák. Satya Nadella, a Microsoft vezérigazgatója megvédte az MI nyilvánossá tételére vonatkozó döntést, ugyanakkor elismerte: vannak még hiányosságai, időnként lassú, esetleg nem válaszol, vagy pontatlan.

microsoft_ai.jpg

A vállalat előtt viszont óriási lehetőség áll, hogy ismét az innováció élén legyen – nyilatkozta. Technológiájuk folyamatos felhasználói, emberi visszajelzésekkel javítható, tökéletesíthető.

„Új verseny van a legfontosabb vagy a legnagyobb szoftverkategóriában, a keresésben. A Google az uralkodó, de most örülünk a Bingnek, és vele a verseny elindításának” – jelentette ki egy interjúban.

Mesterséges intelligencia esetében különösen fontos, hogy az egyéni és a társadalmi normákat figyelembe véve, összhangban legyen az emberi preferenciákkal. Abszolút biztonságra törekednek, az MI ne okozhasson semmiféle kárt, de ezt, minden más technológiai újításhoz hasonlóan, csak a való világban tudják megvalósítani.

Nadella azt is elmondta, hogy a rendszerbe a részrehajlást, elfogultságot, az általa okozott károkat elkerülendő, sok ezeket megakadályozó mechanizmust építettek be. Elismeri, hogy egy MI valóban az emberiség ellen fordulhat, egyszer tényleg elszabadulhat, a félelemnek van valóságalapja. Ennek megfelelően kell fejleszteni, és akkor elkerüljük a potenciális veszélyeket – állítja a vezérigazgató.

Az embernek pedig úgy kell használnia a mesterséges intelligenciát, hogy elkerülhessük a disztópikus jövőt, a gépi értelemmel való ellentéteket.

Ennek értelmében először azokban a kategóriákban kell használni a fejlett MI-modelleket, amelyekben egyértelműen és kétségbe vonhatatlanul mi járunk élen, a mi kezünkben a felelősség. Mindaddig, amíg így teszünk, a modellek még biztonságosabbá, megmagyarázhatóbbá válnak, és csak utána gondolkozhatunk másfajta használatokon – összegez Nadella.

Nagyon furcsa az észak-koreai YouTube

Egy YouTube videón iskoláskorú lány újságolja el, hogy a Harry Potter a kedvenc könyve. Egy másikon fiatal nő vesz ki jégkrémeket a hűtőszekrényből, és elmondja melyik milyen ízű, milyen cuki a rajtuk lévő kép, végül kiválaszt egyet, és megjegyzi, mennyire finom.

Utóbbit 41 ezren látták, és az anyag minden csak nem közönséges vlog. A benne szereplő hölgy YuMi-nek nevezi magát, az anyagot Észak-Koreában a világ talán legelzártabb országában vették fel. Tavaly júniusban létrehozott YouTube-csatornája egyike az utóbbi egy-két évben felbukkant észak-koreai közösségimédia-anyagoknak. Ezekben a videókban helyi lakosok osztják meg mindennapjaikat a nézőkkel, előfizetőkkel.

eszakkorea_1.jpg

Az anyagokat ugyan csak néhány tízezren látták, de az országot ismerő szakértők szerint, ha nem is teljes mértékben hamisítványok, az egyértelmű, hogy készítőik az országot a valósnál sokkal jobb színben igyekeznek bemutatni. Mintha az észak-koreai vezetőség lenne a rendező, valószínűleg ők is állnak a videók mögött.

Park Seong-cheol, az Észak-koreai Emberi Jogok Adatbázis Központjának kutatója szerint a mozgóképek úgy néznek ki, mint a „jól előkészített játékok.”

eszakkorea0_1.jpg

Egy harmadik anyagon az egyik lány megmártózik egy élménypark hullámvizes medencéjében. A valóságban ilyen létesítmények nem állnak a nagyközönség rendelkezésére, ráadásul ha egy-egy ki is nyit, a fejletlen infrastruktúra miatt csak ritkán – esetleg hétvégéken, de még inkább ünnepnapokon, vagy speciális napokon, mint a filmforgatás – üzemel.

Park elmondta, hogy az energiaellátás nem áll az élményparkok gördülékeny működtetéséhez szükséges színvonalon. Az áramszünet és az áramhiány mindennapos jelenség, sőt, állítólag a lakosság mindössze negyede fér hozzá az elektromossághoz.

Tehát a YouTube anyagok minden bizonnyal fabrikált videók, és egyben jól szemléltetik, hogy a kommunista diktatúra vezetői a propaganda új formáira váltottak. A videókkal a járvány utáni világban megélénkülő turizmusra is gondolnak. Kérdés, mennyire sikerül meggyőzniük az Észak-Korea viszonyaival általában tisztában lévő utazókat.

David Guetta mesterséges intelligenciával „alkotta újra” Eminem hangját egy új számhoz

David Guetta, világhírű francia DJ és producer egy partin, hatalmas közönség előtt új számot adott elő, és a számban a – szintén szupersztár – rapper, Marshall „Eminem” Mathers „szerepelt”, akinek egyébként semmi köze az ominózus darabhoz.

A DJ ugyanis generatív mesterséges intelligenciával hozott létre szöveget – hangot, mindent Eminem stílusában.

guetta_eminem0.jpg

„Hadd mutassam be Emin-AI-em-et” – fűzte hozzá a videóhoz, majd a következőket írta a Twitteren: „Eminem bro, viccet csináltam valamiből, és olyan jól működik, hogy el sem hiszem. Alapvetően bármelyik szeretett művész stílusában írhatunk verset, így begépeltem az MI-nek: írj Eminem stílusában jövőbeli rave-ről. Utána egy másik MI-honlapra mentem, ahol újraalkothattam a hangot. Összeraktam a szöveggel, majd lejátszottam egy partin, és az emberek megőrültek érte.”

A klip alapján a közönségnek valóban tetszett a zene, Guetta viszont nem közölte velük, hogy mesterséges intelligencia által generált muzsikát hallanak, és arról sincs hír, hogy Eminem miként reagált az egészre, „hangja” valószínűleg engedély nélküli használatára.

guetta_eminem_1.jpg

Guetta közölte: a szám nem fog kereskedelmi forgalomba kerülni. De ha nem is árusítják a darabot, több etikai kérdést felvet.

A DJ a partin így vagy úgy, de mindenképpen profitált a rapper hangjából. Ráadásul terjed a hírességek ilyen jellegű, egyébként elkerülhetetlen megszemélyesítése, és ezzel együtt a hanggeneráló MI-k lehetőségeitől való félelem.

Ha egy DJ remixel egy más által írt és előadott számot, az nagyon nem ugyanaz, mintha az illetővel (annak tudta nélkül) létrehoz egy teljesen új darabot. Az MI a megszemélyesített művésztől távol álló szöveget is adhat a szájába: uszíthat, gyűlöletet kelthet, mások ellen beszélhet stb. De az is előfordulhat, hogy az illetőnek egyszerűen nem tetszik, ha mások megszemélyesítik.

Eminemről köztudott, hogy szereti a csúcstechnológiákat, web3-termékeket, metaverzumot, Guetta viszont még így is ismeretlen területre lépett. A világ egyik legismertebb DJ-jeként, hatalmas rajongótábora van, közülük is többet inspirálhat a példa.

Emin-AI-em egyébként csak két egyszerű sort rappelt a számban: „This is the future rave sound / I’m getting awesome and underground.”

Szövegből zenét hoz létre a mesterséges intelligencia

A közvélemény egyelőre a mesterséges intelligencia által generált szövegekre, képekre figyel, pedig a zenében is történt előrelépés. A Google és a párizsi Sorbonne Egyetem kutatói ugyanis bemutatták a szöveges leírásokból muzsikát létrehozó MusicLM rendszert.

Természetes nyelvű leírások és zenefelvétel párjaik egyelőre ritkák, ezért joggal merül fel a kérdés: hogyan gyakoroltathatók szöveget zenévé alakító programok?

Eddig a modelleket a kapcsolódó szöveg és zene ugyanahhoz a beágyazáshoz való társítására tanították. Így vált lehetővé a nagy mennyiségű felvétel alapján történő zenegenerálás, pontosabban újjáalkotás. Utána a modell levonta a következtetést, és szöveges utasítást (prompt) készített a zenékhez.

szovegbol_zene_1.jpg

A MusicLM 24 kHz felbontású, harminc másodperces audióklipek újjáalkotását tanulta meg. 280 ezer órányi felvételből álló, nem nyilvános korpuszt használt hozzá.

A kihívás nagyságát érzékelteti, hogy a hangot három különböző aspektusból kellett modelleznie, ami persze árnyalta is a munkáját. A szavak és a zene közti kapcsolat az első. Nagyszabású kompozíció, például egy nyitány a második, amelyben hozzáadott dallamok ismétlődnek. Kisléptékű részletek, például egy dobhang megjelenése és elhalása a harmadik.

A kutatók mindhárom aspektust különféle tokenekkel reprezentálták, amelyeket előzetesen betanított, különböző rendszerek generáltak.

Ugyanabból az audióklipből az egyik (MuLan transzformer) hang-szöveg, a másik (w2v-BERT) szemantikus, a harmadik (SoundStream önkódoló) akusztikus tokeneket dolgozott ki. A hang-szövegesekből transzformerek szemantikusokat, a szemantikusokból és a hang-szövegesekből egy másik transzformer csoport akusztikusokat hozott létre. SoundStream dekódolója a második csoport tokenjeiből generált zenei klipet.

A fejlesztők egy szöveg-zene adatsor ezer leírását MusicLM-be és két másik hasonló modellbe, Riffusionbe és Mubertbe táplálták. A hallgatóknak el kellett dönteniük, melyik passzol leginkább az adott szöveghez. Az adatsor hivatásos zenészekkel felvett eredeti anyagait is választhatták.

Mubert 9,3, Riffusion 15,2, MusicLM 30 százalékot ért el. Legjobban, 45,4 százalékot a humán muzsikusok teljesítettek. A hallgatóság nem a zene minősége, hanem kizárólag a szöveghez való kapcsolódás alapján döntött.   

Ellenszélben San Francisco robottaxijai

A Cruise 2020-ban, a Waymo 2022-ben indított biztonsági sofőr nélküli taxiszolgáltatást San Franciscóban. A város 2022-ben engedélyezte, hogy anyagi ellenszolgáltatást kérjenek a fuvarért. Ezt követően, miután az összeköttetés megszakadt a központi szerverrel, a Cruise járművei több dugót okoztak az utakon.

A San Franciscói Városi Közlekedési Ügynökség, a megye Közlekedési Hatósága és a polgármesteri hivatal nyílt levélben sürgeti Kalifornia szövetségi állam illetékeseit az önvezető járművekre vonatkozó jelenlegi korlátozások fenntartására mindaddig, amíg működtetésük bizonyos feltételeknek meg nem felel.

sanfrancisco.jpg

A két cég robottaxijai csak a város meghatározott részein és meghatározott napszakokban működhetnek. 2022 decemberében a Cruise a tér- és az időbeli lehetőségek bővítését kérvényezte. A kérvényt elutasító nyílt levélben az érintettek 2022. május 29. és december 31. közötti kilencvenkét esetre hivatkoztak, amelyeket az önvezető járművek nem tervezett fékezései, megállásai okoztak.

Más autókat, a tömegközlekedést, kerékpárosokat és a gyalogosokat is zavarták ezekkel.

A nyílt levél szerzői hangsúlyozzák, hogy a jelenlegi korlátozások mindaddig maradjanak fenn, amíg a robotjárművek több hónapon keresztül nem zavarják meg a közlekedést. A flották csak ebben az esetben, és akkor is lépésről lépésre növelhetők, például egy cégnek maximum száz önvezető taxija lehessen egyszerre az utakon.

A Cruise-t és a Waymo-t egyaránt kötelezik a nem tervezett fékezések hatásának kiértékelését lehetővé tevő adatszolgáltatásra: mennyi kilométer van a járműben, hány és mennyi ideig tartottak a nem tervezett megállások. Az adatokat nyilvánossá teszik, bárki hozzájuk férhet – ma nincs így, mert például a Cruise korlátozott adatmennyiséget bocsát az érintett hatóságok rendelkezésére. A nyilvánosságnak legalább harminc napot kell adni az adatok tanulmányozására, és a város csak azt követően engedélyezheti az adott cégnek az esetleges terjeszkedést.

A Google hivatalosan bejelentette Bardot, a ChatGPT vetélytársát

Sundar Pichai, a Google vezérigazgatója február hatodikai blogposztban jelentette be a cég lekérdezéseket megválaszoló, csevegésben részt vevő kísérleti beszélgető mesterségesintelligencia-szolgáltatását. A Bard nevű szoftvert most „megbízható tesztelők” csoportja használja, pár héten belül szélesebb körben is hozzáférhető lesz.

Egyelőre nem tudni, mire képes, de valószínűleg elvileg ugyanannyian használhatják majd, mint az OpenAI ChatGPT-jét. Képernyőkép alapján praktikus kérdéseket tehetünk fel neki, például hogyan készítsük el megadott alapanyagokból a reggelit.

bard0.jpg

Pichai szerint Bard segít a kreativitás kibontakoztatásában, kíváncsiságunkat növeli, gyerekek számára is érthetően magyaráz el tudományos felfedezéseket, vagy azt, hogy kik jelenleg a világ legjobb támadó focistái. Hozzájárul képességeink továbbfejlesztéséhez.

Az információkat a webről szedi össze, azok alapján ad „naprakész, kiváló minőségű” válaszokat, ami azt sugallja, hogy néhány napos, még friss eseményekről is tájékoztat. ChatGPT számára ez (egyelőre) problémát jelent.

bard.jpg

A Google gyors lépése reakció is a nyilvánosan hozzáférhető automatizált szöveggeneráló OpenAI chatbot – és a mögötte álló Microsoft – akár az internetes keresés jövőjét is befolyásoló, óriási sikerére.

A többi techóriáshoz hasonlóan, a Google szintén tart a nagy nyelvmodellek (LLM) esetleges – és jól dokumentált – káros megnyilvánulásaitól, például hamis információk terjesztésétől vagy a gyűlöletbeszédtől. Bard nyilvánossá tétele irányváltás lehet, bár Pichai hangsúlyozza: a külsős visszajelzésekkel és a belső tesztekkel mindent megtesznek a chatbot által közöltek magas minőségi, biztonsági szintjéért, megalapozottságukért és a tartalom valódiságáért. Ezek ellenére persze többé-kevésbé garantálható, hogy a chatbot fog hibázni, lesznek ordító tévedései.

A nagyvállalat évek óta hangsúlyozza, hogy az MI-t beépíti termékeibe, a keresésbe is. A mesterséges intelligencia egyre több keresési eredményt foglal össze könnyen emészthető formában, több perspektívából nézve ahelyett, hogy a felhasználót hagyná rákattintani a forrásokra. Ezek a funkciók a jövőben egyre fontosabbak lesznek.

Új csalási lehetőségek az e-sportokban

Mivel az e-sport és az alapját adó videójátékok óriási üzlet, az alkalmi, kezdő játékosok élményét leromboló csalások komoly negatív hatással lehetnek az eladásokra, és az adott játék hírnevének is nagyon rosszat tesznek. Ez fokozottan érvényesül, ha olyanokról van szó, mint például a profik által űzött, topversenyzőknek dollármilliókat hozó Rocket League.

Klasszikus asztali játékoknál, mint a go, vagy egyes videójátékok, például a Star Craft II esetén működik a megerősítéses tanulás, az MI tisztességesen elsajátítja a tudományt, és ha úgy adódik, nyer. Mostanában viszont egyre többször használják más célra, csalásra a mesterséges intelligenciát.

ai_cheater.jpg

Az első személyű lövöldöző játékokban a célpontra automatikusan rászegeződő és azt lelövő csaló botot (cheatbot) fejlesztő Userviz, az MI YOLO implementációban történt felfedezését és az Activision kiadó jogi intézkedését követően, megszüntette a bothoz való hozzáférést.

A Rocket League-ben, az egyik legnépszerűbb e-sportban szintén elszaporodtak az eredetileg a versenyzők trenírozására fejlesztett mesterséges intelligenciát eredeti módon – „kreatívan” – használó csalók.

ai_cheater0.jpg

A szabályok a labdarúgáshoz hasonlók: az ellenfélnek a pálya másik végén lévő kapujába kell juttatni a labdát. Csakhogy azt nem feltétlenül rúgják, hanem versenyautók viszik oda, amihez a környezet sajátos fizikáját is uralni kell: a járművek felhajthatnak az aréna falára, az autókat turbómeghajtásra kapcsolhatják, vagy akár felemelhetik a levegőbe.

A csalást az edzőeszköznek fejlesztett Nexto bot teszi lehetővé. Ő és a hasonló botok használatát szigorú szabályok rögzítik, eleve úgy kódolják mindet, hogy versenyjátékokban például ne lehessen bevetni egyiket sem. A megerősítéses tanulással csúcsjátékossá gyakoroltatott Nextot viszont módosította valaki, és már meg tudja kerülni a szabályokat, azaz az eredetileg tiltott területen is alkalmazható.

A bot jelenlegi szintje a legfelső kategóriát jelentő egy százalék, tehát senki ellen sem esélytelen, a játékosok zömét pedig eleve megveri. Könnyen elképzelhető, hogy mi történik akkor, ha csalók irányítják.

Fejlesztői jelenleg új boton dolgoznak, és a csalásokat megelőzendő, rajtuk kívül senki más számára nem lesz elérhető. A Rocket League egyébként már le is tiltott a Nextot és más hasonló botokat bizonyítottan használó játékosokat – csalókat.

Gyakorló adatsorok képeiért fizet a művészeknek a Shutterstock MI-je

Egyre több vitát vált ki a képgeneráló mesterséges intelligenciák által tanuláshoz használt adatsorokban lévő alkotások szerzőinek anyagi kompenzálása. A viták egyelőre főként arra összpontosítanak, hogy mi a törvényes, pedig célszerűbb lenne, közelebb vinne a megoldáshoz, ha a törvényes helyett a korrekten lenne a hangsúly.

Ha eljutunk eddig, a szabályozók, a mesterségesintelligencia-appokkal teli digitális világ szellemében, ahhoz alkalmazkodva, és nem mögötte kullogva, ténylegesen, értelmesen frissíthetik a szerzői jogi törvényeket.

image_generator.jpg

A stockfotókat szolgáltató Getty Images szeptemberben tiltotta meg az MI által generált alkotások feltöltését és engedélyezését, majd bejelentette, hogy jogi eljárást indít a szövegből képet generáló Stable Diffusion fejlesztője, a Stability AI ellen, mert a modell többmillió gyakorlóképe közül jó pár az ő tulajdonuk, amelyeket engedély nélkül használnak.

A Getty legnagyobb riválisa, a Shutterstock más utat választott, képgeneráló szolgáltatása, azaz egy MI anyagilag kárpótolni fogja az adatsorokban érintett alkotókat. A vállalat szövegből képet készítő, az eddigi szolgáltatásokat kiegészítő mesterséges intelligenciát állított munkába, és a bevételeket megosztják az alkalmazás trenírozásában képekkel közreműködő művészekkel.

image_generator0.jpg

A Shutterstock éves bevétele 2021-ben 773 millió dollár volt (2022-es adat még nincs). A képgenerálók, például a DALL-E-2 több százmillió képen tanulnak. Ez a két szám azt sugallja, hogy az előrelátható jövőben az alkotók minimális, inkább jelképes, mint valós szerzői tiszteletdíjra számíthatnak.

A képgeneráló MI-technológia nagyon megbolygathatja a stockfotók licenszelési üzletét. Például miért fizessünk, ha mi magunk is fillérekért készíthetünk képeket?

A Shutterstock proaktívan közelíti meg a kérdést. Modelljük olyan művészek képein és a kapcsolódó metaadatokon tanul, akiknek a munkáit a cég további felhasználásra engedélyezi. A közreműködők aztán eldönthetik, hogy képeik szerepelhetnek-e jövőbeli gyakorló adatsorokban, vagy sem.

Minden egyes képért egyelőre nem pontosított összeget kapnak. Ha az adatsort más félnek licencelik, ugyanannyi jár nekik. A pénzt félévente kapják meg.

A fiókot nyitó felhasználók maximum napi hat képet tölthetnek fel, amiért minimális összeget fizetniük kell. A Shutterstock MI-je közreműködésével generált képeket szintén feltölthetnek, más cég MI-je segítségével alkotott darabokat viszont nem.

Elon Musk hazudott az önvezetésről

Techcégek gyakran reklámozzák termékeiket olyan funkciókkal, amelyekre még nem képesek. Általában immateriális javak, a lakosság bizalma vagy a befektetők bankszámlái bánják a félretájékoztatást. Önvezető járművek esetében viszont halálosak lehetnek a nem egészen korrekt infók.

Az NHTSA, az USA közúti biztonságért felelős hivatala vizsgálja, hogy a Tesla Autopilot módban vezetett járműve, 2022-ben egy alkalommal nyolc autó összekoccanását okozta. Az eset csak órákkal azt követően történt, hogy Elon Musk az Autopilot hozzáférhetőségéről tweetelt: opcionálisan mindenki számára megvásárolható Észak-Amerikában. Korábban csak biztonságosan vezető sofőröknek volt rá lehetősége.

tesla_7.jpg

A hivatal Tesla járművek felelőtlen fékezésével kapcsolatos többszáz panaszt vizsgál. Úgy tűnik, hogy a gyártó önvezető autóját szándékosan megtévesztő módon reklámozta.

Musk cége 2016-ban lakás kihajtójától vállalati parkolóig menő autóról a következő felirattal tett közkinccsé videót: „A vezetőülésben tartózkodó személy, csak jogi okok miatt van ott. Nem tesz semmit. Maga a jármű csinál mindent.”

tesla0_4.jpg

Belső céges elektronikus levelezésből (több e-mail a Bloomberg birtokába került) kiderült, hogy a mérnökök Musk nyomására hamisították meg a videót. Azt ígérte nekik, hogy a nézőkkel közölni fogja: a videó a jövőt, és nem a jelent mutatja. Ehelyett, a mozgókép-anyag közzétételekor a következőt tweetelte: „A Tesla (bárminemű emberi input nélkül) önmagát vezeti városi utcákon keresztül az autópályához, onnan vissza az utcákhoz, majd megtalálja a parkolóhelyet.”

A Tesla autó 2018-as fatális karambolja miatti bírósági eljárás során az Autopilot szoftverrészleg vezetője elmondta, hogy a videót részben fabrikálták.

„A videó célja nem a 2016-ban az ügyfelek számára hozzáférhető dolgok pontos bemutatása volt, hanem az, hogy mi építhető be a rendszerbe”állította a bíróságon.

A New York Times 2021 végén cikket közölt az ominózus videó készítéséről. Kiderült, hogy mérnökök előzetesen speciálisan és gondosan feltérképezték az útvonalat, de a jármű ennek ellenére, legalább egyszer karambolozott felvétel közben.

A nagy nyelvmodellek vezetnek az általános mesterséges intelligenciához?

A nagy nyelvmodellek (large language models, LLM), például a ChatGPT utóbbi időkben elért látványos sikerei régi vitát élesztettek fel az MI-fejlesztő közösségben: milyen fajta információ kell a tanulóalgoritmusoknak az intelligenciához?

Az emberi tapasztalat zöme, mint az étel íze, a napfelkelte szépsége vagy az érintés független a nyelvtől. Az LLM-ek viszont ékesen példázzák, hogy az emberi tapasztalat nagy részét az embernél jóval több nyelv „fogyasztásával” mégis képesek utánozni.

ai_language.JPG

Az LLM-ek előtt az MI-közösség a szövegeket korlátozott információforrásnak tartotta az általános MI-hez (artificial general intelligence, AGI) vezető úton – magyarázza Andrew Ng gépitanulás-szakértő. Az állatok nyelvhasználat nélkül váltak intelligenssé, az intelligencia pedig a világ látvány, hangok és más érzékszervi élmények általi észlelését jelenti, amelyek alapján tudjuk, hogyan mozogjunk a testünkkel, általában értjük a fizikát, azaz miként szedjük le a gyümölcsöt a fáról, találjunk szállást, párt. Az írás csak 5500, a beszélt nyelv 100 ezer éves, az emlősök viszont 200 ezer éve vannak itt.

Ha az MI-fejlődés az evolúciót követi, előbb rovar-, aztán egér-, macska-, főemlős-, végül emberszintű gépi intelligenciát kell építenünk, és a nyelv előtt olyan képességekre összpontosítunk, mint a látás és a pszichomotorikus adottságok.

Az LLM-ek viszont azt vetítik előre, hogy ha gigantikus mennyiségben hozzáférnek a nyelvhez, az információforrás korlátai, de legalábbis a korlátok jelentős része megszűnik. Ha egy ember 7/24, percenkénti 250 szó tempóban olvas, akkor évi 131.400.000 szóig jut el (ami ugye lehetetlen, mert aludni, enni, inni stb. is szoktunk). A GPT-3-at viszont 500 millió szón trenírozták, egy személynek több élet kellene ennyihez.

A weben lévő szövegek összessége embermilliárdok munkája, az LLM-ek pedig ezeken a szövegeken ismernek meg valamit a mi tapasztalatainkból. Hiába nem látott még egy modell napfelkeltét, annyit olvasott róla, hogy meggyőzően le tudja írni.

És a nyelv hiába csak kis része az emberi tapasztalatnak, az LLM-ek rengeteget megtanulnak rajta keresztül a világról, azaz az „intelligenciaépítés” több útja lehetséges, és gépi rendszerek esetében talán nem az evolúció vagy a gyerekeké a leghatékonyabb.

Ha csak szövegeken keresztül látjuk a világot, szegényebb a valóságélményünk. Viszont a csak szövegalapú mesterségesintelligencia-fejlesztés már messzire eljutott, és Ng szerint a következő években nagyon látványos fejlődésnek leszünk a tanúi ezen a területen.

süti beállítások módosítása