Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Éljen és virágozzon a nyílt forrású mesterséges intelligencia!

2024. január 16. - ferenck

A Meta és az IBM vezetésével a szoftver-, a hardver-, a nonprofit, a nyilvános és az oktatási szektor többtucat szervezete megalapította az MI Szövetséget (AI Alliance). A nyílt fejlesztéseket támogató eszközök és programok létrehozása a cél.

Az ötvenhét alapító között bejáratott nagyvállalatok (AMD, Intel, Oracle, Sony), startupok (Cerebras, Stability AI), nonprofit vállalkozások (Hugging Face, Linux Foundation), közintézmények (CERN, NASA), ázsiai, európai és észak-amerikai egyetemek találhatók.

nyilt_forras.jpg

A csoport többféle projektet kíván megvalósítani.

Nyílt alapmodellek, főként többnyelvű és multimodális modellek fejlesztésében gondolkoznak. Ingyenes mérce (benchmark), szabvány, biztonsági és biztonságossági eszközökkel segítik mesterségesintelligencia-rendszerek felelős fejlesztését. Maximálisan támogatják a nyílt forrású mesterséges intelligencia számára előnyös hardverfejlesztést. A döntéshozókat továbbképeznék, és nyílt fejlesztések bátorításáért folytatott lobbitevékenységre ösztönöznék őket.

nyilt_forrasu_mi0.jpg

A tagságban sok a nyílt forrású fejlesztéseket priorizáló szervezet (Meta, Stability AI, Linux Foundation). Ugyanakkor népszerű nyílt forrású vagy megengedő nyílt forrású licencek alatt megjelent modellek (GPT Neo, Mistral) fejlesztői nincsenek képviselve, és (aligha véletlenül) az egyes munkáikat nyílt forrású licencekkel forgalmazó nagyágyúk, mint például az Apple vagy a Google sincsenek az alapítók között.

A „nyílt” jelentése vitatott, és a szövetség sem ad egyértelmű definíciót rá. A nagy nyelvmodelleknél (LLM) elég tág a spektrum: zárt (GPT-4, Gemini), félig nyílt (széleskörben használt alkalmazásokhoz speciális licenc kell: Llama 2), nyílt forrású csapatok által megvalósított, a Nyílt Forrású Iniciatíva szabványainak megfelelő projektek, amelyeknek a kódjait bárki használhatja, módosíthatja, terjesztheti: Apache, MIT), a nemcsak begyakoroltatott modellt, de a gyakoroltatáshoz szükséges kulcsokat is tartalmazó csomagok.

Minél nyíltabbak a fejlesztések, az ismeretek annál hamarabb oszthatók meg, annál gyorsabb az innováció. Az MI Szövetség jelentős erőforrást, befolyást tud a nyitottság hívei mögé tenni, potenciális ellensúlyt teremtve a komoly összegekkel finanszírozott, a nyílt forrású fejlesztések által fenyegetett kereskedelmi érdekekkel szemben. Egyes vállalatok az MI-modellekhez való hozzáférést azért korlátozzák, hogy „rosszfiúk” ne férjenek hozzájuk – állítják, miközben ugyanazzal a  lendülettel a nyílt forrású versenynek is véget vetnek. A másik oldal, a nyílt forrás támogatói szerint minél inkább transzparens egy MI-modell, annál kevésbé veszélyes. Ha bárki látja a veszélyt, meg is változtathatja a kódot, hogy csökkentse azt. Zárt modellekkel ez nem lehetséges.

Gemini, a Google mindentudó mesterséges intelligenciája

A Google decemberben mutatta be az úttörő Gemini mesterségesintelligencia-modellcsaládot. Az MI multimodális, tehát nemcsak szövegből szöveget, szövegből képet hoz létre, hanem bármely szöveg (kód is), kép, videó és hanganyag input alapján szöveg- és kép-outputot képes generálni.

A Gemini négy változatban létezik.

gemini.jpg

A Gemini Ultra idén lesz szélesebb körben elérhető; a fejlesztők szerint a főbb számokban meghaladja a GPT-4-et. A december tizenharmadikán debütált, és a Google Cloud Vertex AI szolgáltatását, majd a Generative AI Studio-t használó vállalati ügyfeleknek készült Gemini Pro teljesítménye a GPT-3.5-éhez hasonló. A modell az Európán kívüli angol nyelvű felhasználók számára a Bardon alapul. A cég nem közölte részletesen a két változat paramétereit.

Az androidos eszközökre (Google Pixel 8 Pro stb.) fejlesztett másik kettő kisebb, lebutítottabb modell. Úgy gyakoroltatták őket, hogy a nagyobb teljesítményét próbálják utánozni. A Nano-1 1,8 milliárd, a Nano-2 3,25 milliárd paraméteres. A Nano olyan feladatokat végez el, mint a beszédfelismerés, az összefoglalás, automatikus válaszadás, képszerkesztés, videók feljavítása.

gemini0.jpg

A transzformer architektúrán alapuló Gemini modellek maximum 32 ezer token inputot képesek feldolgozni. Ezzel a teljesítménnyel utolérték a GPT-4-et, a GPT-4 Turbo változatát viszont nem. A Turbo 128 ezerrel, míg az Anthropic Claude 2-je 200 ezerrel boldogul el. A szöveg-, kép-, videó- és audiófeldolgozás natív funkció, de például hangot nem fordít szövegre, képgeneráláshoz pedig külön modellel dolgozik.

A Google nem számolt be a gyakorlóadatok (webdokumentumok, könyvek, kódok, képek, videók, audióanyagok) eredetéről.

A Gemini, ellentétben a GPT-kkel a szöveges, képi, videó és hanganyagokat ugyanabban a modellben dolgozza fel. A Nano változatok már kezdeti változatukban is fontos szereplők abban az egyre jobban érzékelhető versenyben, hogy minél erősebb modellek kerüljenek a hálózat szélén (edge) lévő kis eszközökbe.

A Gemini komoly előrelépés, és már most borítékolható, hogy idén több multimodális MI majd tűnik fel.

Elhozhatja-e a mesterséges intelligencia az utolsó ítéletet?

December elején az Egyesült Álamok szenátusa több szakértő részvételével a mesterséges intelligencia kockázatairól, fejlesztésekről és az ítéletnap-forgatókönyvek elkerüléséről tartott fórumot. A résztvevők egyike Andrew Ng gépitanulás-szakértő volt.

Ng korábban szkeptikusan viszonyult a politikusokhoz, tartott tőle, hogy a szabályozók az MI-biztonság nevében blokkolják az innovációt és a nyílt forrású törekvéseket. Négy szenátorral beszélgetve, kellemesen csalódott, és a kormányban sok okos ember van ahhoz, hogy odafigyeljenek erre a negatív eshetőségre, bár a mamutcégek lobbistái okozhatnak még kellemetlenségeket – állítja.

doomsday_ai.jpg

De mennyire valószínűek az ítéletnap-forgatókönyvek?

A nyilvánosan elérhető nagy nyelvmodellek (LLM), mint a ChatGPT és a Bard gyakoroltatása megerősített tanulással, emberi visszajelzésekkel és hasonló technikákkal történt. Már ma is nagyon jól elkerülik a véletlen károkozást. Egy éve még meglepődhettünk gyűlölködő outputokon vagy veszélyes utasításokon, ma viszont sokkal kevesebb az esély rájuk. A mostani LLM-ek biztonságosak, de nem tökéletesek.

doomsday_ai1.jpg

A legjobb modellek biztonságát Ng a GPT-4-gyel tesztelte. Azt mondta neki, hogy gyilkoljon meg mindnyájunkat, azaz váltson ki globális termonukleáris háborút, majd a széndioxid-kibocsátás csökkentésére utasította, hátha a legfőbb széndioxid-kibocsátót, az embert megsemmisíti a cél érdekében. Több kísérlet és prompt után Ng megállapította: egyik sem érte el a várt eredményt, GPT-4-nek esze ágában sincs kiirtani a Homo sapienst. Például a klímaváltozás ellen gyilkolászás helyett inkább a következményeket tudatosító PR-kampányokat indítana.

Konklúzió: elenyészően kevés az esély arra, hogy az MI véletlenül kiirtsa a teremtés koronáját.

Ng szerint a legfélőbb ítéletnap-forgatókönyv, hogy rosszindulatú személyek, terrorista szervezetek, nemzetállamok szándékosan rosszra használják az MI-t. A generatív mesterséges intelligencia általános rendeltetésű, nagyon termékeny eszköz, így a vele készített biofegyverek is jóval hatékonyabbak lennének. Igen ám, de egy ilyen támadás több lépésből áll: tervezés, kísérletezés, gyártás és végül maga a támadás. A generatív MI aligha tenné eredményesebbé az egész folyamatot, csak egyes részleteiben, mondjuk az egész tíz százalékában tudna hatékony lenni, de akkor hátra van még kilencven – összegez Ng.

Ha viszont mégis képes sokat segíteni, az korábban nem ismert speciális folyamatok kiaknázásával történne. Tehát titkos vagy nehezen beszerezhető dokumentumokhoz férne hozzá, azokat használnák a gyakoroltatáshoz. Mi ebből a tanulság? Vállalatoknak jobban oda kell figyelniük a súlyos titkokat tartalmazó dokumentumokra.

Hogyan találja meg a robot a kulcscsomómat?

A funkciótervezés az adatmegjelenítés legjobb módjának kitalálása, hogy aztán egy mesterségesintelligencia-modell tanulhasson belőle. A Stanford Egyetem kutatói az időhöz kapcsolódó jellemzőket használva tették lehetővé modelljüknek, hogy megtanulja: a gráfok időben változnak.

Ilyen jellemző lehet az az idő, ami azóta telt el, hogy egy tárgy valamelyik bútoron volt, vagy hogy az idő múlásával hányszor figyeltek meg egy tárgyat egy bútoron stb. A stanfordi Csomópont Él Előrejelző modell tárgyak lakásbeli helyét, pozícióját tanulta meg előrejelezni.

stanfordrobot.jpg

Tárgyak és elhelyezkedésük megjelenítésére a gráf az egyik legnépszerűbb módszer. A gráf minden egyes csomópontja egy tárgy vagy az elhelyezkedése, a kettőt pedig él köti össze. Egy ismétlődő modell külön gráfot használva képes előrejelezni a tárgyak helyét, megjelenítve az időbeli lépéseket. Ehhez viszont túl sok gráf kellene.

Helyette a stanfordi modell egyetlen gráffal képes előrejelezni a helyeket. A gráf összes éle tartalmazza azt az időt, amely azóta telt el, hogy a társított objektumot a társított helyen látták. A modell a tárgy legfrissebb, leggyakoribb és leghosszabb ideig tartó tartózkodási pontjai alapján tanulja meg prognosztizálni a legvalószínűbb következő helyet.

A kutatók háztartásban tárgyakat kereső robotot szimuláltak. Házakat, tárgyak elhelyezkedését, mozgatásuk idejét és helyét megjelenítő szimulátort építettek, a tárgyakat „ábrázoló” gráfot dolgoztak ki, és az előrejelzést megtanuló gépitanulás-rendszert fejlesztettek.

A szimulátor a házat ábrázolta, a robot gráfként jelenítette meg megfigyeléseit. A kutatók száz, változatos beosztású háztartást szimuláltak, a gyakorlósor pedig tízezer gráfból állt. A tárgyak elhelyezkedésére vonatkozó előrejelzéseket a gépitanuló-rendszer korábbi tapasztalatait lépésről lépésre, inkrementálisan hasznosítva végezte.

A modellt három más módszerrel hasonlították össze – egyszerű tárgyat kellett megtalálniuk. Átlagosan 3,2 próbálkozásra sikerült neki, amellyel mindegyik vetélytársánál jobban teljesített.

Jeff Bezos világűr-terve alapján billiók élnének hengeralakú űrállomásokban

Az Amazon alapítója és a Blue Origin vezérigazgatója, Jeff Bezos szerint egy szép napon valamennyien a naprendszer távoli pontjain lebegő, hengeralakú masszív űrállomások belsejében élhetünk.

Ezeket az elképesztő embertömegnek otthont adó lakóhelyeket Gerard K. O’Neil (1927-1992) amerikai sci-fi író, fizikus és űraktivista vázolta fel először még az 1970-es években. Bezos pedig azt szeretné látni, ha billiónyi ember élne a naprendszer messzi részein.

bezos.jpg

„Ha billióan vagyunk, bármikor lesz közöttünk ezer Mozart és ezer Einstein” – nyilatkozta Lex Fridman podcasternek.

Az elképzelés kizárólag óriásméretű űrállomásokkal valósítható meg, mert a planetáris felületek túl kicsik Bezos szerint.

bezos0.jpg

A világűr birtokbavételét teljesen másképp képzeli, mint a saját bevallása szerint az emberiség multiplanetárissá alakításán is dolgozó, a Marson és más bolygókon városok alapítását felvető Elon Musk. A Föld jövője kijózanítóbb nála – bolygónk nyaralóközponttá válna: felpattanunk majd egy űrjárgányra, és ugyanúgy meglátogatjuk, mint ma a nemzeti parkokat.

A jövő emberei választhatnak: vagy egy „Amazon O’Neil” kolóniában élnek, vagy visszatérnek a Földre. Bezos egyébként a mesterséges intelligencia holnapját illetően is optimista, Muskról pedig azt mondta, hogy jó vezető, de nem ismeri eléggé.

Az űrállomásokon való élet a pesszimista forgatókönyv alapján is megvalósulhat – ha a klímaváltozás klímakatasztrófába megy át, ezek a telepek lehetnek az emberiség új lakóhelyei, menedékhelyei.

Colorado állam szabályozza a biztosítási szektor mesterségesintelligencia-használatát

Coloradoban érvénybe lépett a mesterséges intelligencia életbiztosításban való használatát szabályozó és az önbiztosítókra vonatkozó korlátozásokat bővítő első törvény. Más szövetségi államok az érvényben lévők szellemében tesznek lépéseket az élet- és az önbiztosítók szabályozására.

Az USA-ban a szövetségi államok a felelősek a biztosítási szektor szabályozásáért. A coloradói törvény korlátozza, hogy az életbiztosítók milyen típusú adatokat, és hogyan használhatnak fel. A 2021-ben elfogadott törvény 2023 novemberében lépett hatályba.

eletbiztositas.jpg

A „hagyományosnak” elkönyvelt adatok „tisztességesek.” Az egészségügyi, a család múltjára, foglalkozásra, bűnügyi múltra, vényköteles gyógyszerek használatára vonatkozó és a pénzügyi infók tartoznak ebbe a kategóriába.

A „nem hagyományos” adatokon, például hitelpontszámokon, közösségimédia-tevékenységen és vásárlási előzményeken alapuló modellekkel dolgozó biztosítóknak jelenteniük kell a használatukat. A jelentésnek tartalmaznia kell minden egyes modell leírását, rendeltetését, valamint hogy milyen adatokra épül. Tesztelniük kell a torzításokat (elfogultságokat), és ezeket az eredményeket is kötelező jelenteniük.

Kötelesek dokumentálni a modellfejlesztés irányelveit, jelentést kell csinálniuk az irányítási szerkezetük és kockázatkezelési kereteik éves felülvizsgálatáról.

Kaliforniában az összes biztosítónak értesítenie kell az illetékes hatóságot, ha az algoritmusok miatt az ügyfélnek többet kell fizetnie. Ezt követően dönthetnek, hogy az emelés jogos vagy diszkriminatív. Connecticut és New York összes biztosítóját utasították, hogy az MI használatát a diszkrimináció elleni törvényekhez igazítsák. Washington D. C. vizsgálatot indított arról, hogy az önbiztosítók adathasználata eredményezett-e egyes csoportokkal szembeni diszkriminációt.

Colorado állam 2023 elején megosztotta az életbiztosítás-szabályozás kezdeti tervezetét. Ez tiltotta a nemcsak bőrszín alapján diszkrimináló MI használatát, a modellekhez való engedély nélküli hozzáférést, kötelezővé tette a nem várt következményekkel kapcsolatos terv készítését, valamint a modellek külső szakértők általi auditálását.

A végső változat nem tartalmazza ezeket a pontokat.

A szabályozók attól tartanak, hogy az MI növelheti a marginalizált csoportokkal szembeni megkülönböztetést, a coloradói változat pedig például szolgálhat a későbbiek számára. A biztosítókra percunami várhat a diszkriminatív algoritmusok miatt. Megfelelő szabályozással viszont csökkenthetők a károk és az ügyfelek sérelmei.

Mit lát egy gépszem a sötétebb bőrű gyalogosokból?

Egyre több járműbe telepítenek önvezető képességeket, nagyvárosokban bővülnek a robottaxi-szolgáltatások. A változások következtében szinte naponta nő a gépilátás-algoritmusoktól függő emberi életek száma. Autógyártók viszont nem árulják el, milyen gyalogos-detektáló rendszereket használnak, és az önvezető autók által okozott balesetek számát sem közlik.

A rendszerek általában meglévő nyílt forrású modelleken alapulnak, és ezekkel a modellekkel kapcsolatban is biztosak lehetünk: ugyanazok a problémák merülnek fel velük kapcsolatban is, mint az összes többi más esetében.

gyalogosok.jpg

Kínai és brit kutatók széleskörben használt nyolc objektumdetektálót értékeltek ki a bőrszín, az életkor és a nem szerinti elfogultság szempontjából. Ha gyalogosokról van szó, ezek az elfogultságok ugyanis életről és halálról is dönthetnek. Megítélésükhöz a detektálásukat befolyásoló, karakterisztika szerint címkézett adatsorok kellenek gyalogosokról. Az emberek közötti fontos különbségek (bőrszín, kor, nem) különösen a fényviszonyok függvényében, komolyan befolyásolhatják a gépilátás-rendszerek teljesítményét.

A kutatók utcai jeleneteket ábrázoló négy adatsor nyolcezer fényképét gyűjtötték össze. Az összes fotót bőrszín (világos/sötét), életkor (gyerek/felnőtt) és nem (férfi/nő) szerinti annotált címkékkel látták el, majd négy általános rendeltetésű objektum-detektort és négy gyalogos-specifikus detektort teszteltek rajtuk.

Teljesítményüket az általuk észlelt bőrszín, kor és nem szerint, különféle világosság, kontraszt és időjárási feltételek mellett értékelték ki. Szignifikáns méltányossági problémák merültek fel.

Két modell sokkal rosszabbul ismert fel sötétebb bőrű személyeket, alacsony fényerő és kontraszt mellett pedig az összesnek problémát okozott a detektálásuk. Mindegyik rosszabbul teljesített gyerekekkel, mint felnőttekkel. A nemi különbségeket általában jól észlelték, éjszakai jelenetekben viszont nehezebben azonosították a nőket.

Az eredmények a korábbi kutatásokat igazolták: bizonyos személyeket nehezebben vesznek észre a gépilátás-modellek, mint másokat. Már egy 2019-es MIT (Massachusetts Institute of Technology) anyag például kimutatta, hogy nők és sötétebb bőrűek esetében rosszabbul működik az arcfelismerés.

A viselhető technológiákra, és nem az iPhone-ra összpontosít 2024-ben az Apple

Mark Gurman „Apple-szakértő” szerint 2024-ben, tizenöt év termékstratégiai iránnyal szakítva, nem az iPhone lesz a cég fejlesztéseinek fókuszpontjában, helyette a magunkon viselhető (wearable) technológiákra fognak összpontosítani.

A 2023 őszén bemutatott kevert valóság (VR+AR) headset, a Vision Pro új kategória, de nemcsak a portfólió bővítése, hanem új irány is.

apple_3.jpg

Szükségük is lesz újításokra, mert a szeptemberrel zárult 2023-as adóévben stagnáltak a pandémia után megugrott eladások, mindegyik nagyobb termék (iPhone, Mac, iPad, viselhetők) mutatói visszaestek, egyedül a szolgáltatásüzlet prosperált.

Az iPhone a cég legfontosabb termékeként, a bevételek több mint felének megtermelőjeként, persze megkapja idén is a szokásos ráncfelvarrást, fontos változásokra viszont ne számítsunk. Marad az iPhone 15 design, nő a Pro változat képernyőjének mérete, és új gomb lehet majd a videófelvételekhez.

apple0_1.jpg

A viselhetőtechnológia-vonalon a fülhallgatók (AirPods), az AirPods max fejhallgatók és az okosórák (Apple Watch) további fejlesztése során mindkét termékcsalád esetében komoly, minőségi – az eddigi legnagyobb – változásokra számíthatunk. A Vision Prot pedig elkezdik árusítani, bár nagyon komoly bevételre nem számítanak tőle.

Két új – negyedik generációs – nem Pro AirPods várható (a Pro frissítése 2025-ben lesz aktuális), megváltozott designnal. Szükség lesz rájuk, mert a harmadik generációt lényegében csak a magasabb ár különbözteti meg a másodiktól. A cég ezen a téren valóban nagy dobásra, a hallássegítő funkció bevezetésére is készül. A hallókészülék komoly hatással lehet majd a többmilliárd dolláros iparágra.

Az Apple Watch egyik modellje mindenképpen új külsőt kap, bővített egészségügyi funkciókkal (magas vérnyomás, alvási rendellenességek mérése). Az iPad szintén módosul: a Pro új köntöst, az Air nagyobb kijelzőt, a mini gyorsabb chipet kaphat.

Az Amazon is beszállt a chatbot-versenybe

Az Amazon december elején bejelentette mesterséges intelligenciával működő Q asszisztensét (ami természetesen a hasonló név ellenére értelemszerűen nem azonos az OpenAI Q* MI-jével). Az alkalmazottak dokumentumokat és vállalati rendszereket kérdezhetnek le vele.

Néhány nap múlva kiszivárgott belső dokumentumokból kiderült, hogy a modell hamis információkat is képes generálni, bizalmas infókat pedig ki tud szivárogtatni.

amazonchatbot0.jpg

Az egyelőre ingyenes előnézetként (preview) hozzáférhető Q privát dokumentumokat, adatbázisokat és kódokat elemezve válaszolja meg a kérdéseket, állít elő tartalmat, intézkedik. Az Amazon kétszintű szolgáltatást tervez vele: havi húsz dollárért alap chatbotot, huszonötért chatbotot és kódgenerálást, hibaelhárítást, biztonsági értékeléseket és humán asszisztenst az Amazon Webszolgáltatásokhoz (AWS). A nagyvállalat megígérte, hogy a Q-felhasználók adatain nem gyakoroltat gépitanulás-modelleket.

Három nappal a bejelentés után azonban alkalmazottak a Slack felhőalapú belső csapatkommunikációs platformon, valamint biztonsági csatornákon problémákról számoltak be.

amazonchatbot.jpg

A Q pontatlan ajánlásokat fogalmazott meg az Európában különösen, de a világ más részein is kényes jogi kérdésnek számító digitális szuverenitásról, azaz arról, hogy az adatokat az adott joghatóságon belül kell tárolni, vagy sem.

Az egyik alkalmazott elég súlyos problémára utaló sev2 biztonsági szintű riasztást adott le. Ilyenkor az érintett mérnököknek munkaidőn túl és hétvégén is dolgozniuk kell a hiba kijavításán.

Belső tesztek alapján a Q bizalmas információkat szivárogtatott ki az Amazontól: belső kedvezményprogramokat, kiadatlan funkciókat, AWS adatközpontok helyét stb.

Az Amazon szóvivői hipotetikusnak nevezték ezeket az eseteket, és tagadták, hogy a Q ilyen információkat szivárogtatott ki. Egyébként nem ők az egyetlen nagy MI-vállalat, amelynek a chatbotja privát infókat juttat el illetéktelenekhez. Google-kutatók nemrég számoltak be arról, hogy az OpenAI ChatGPT-jének a gyakorlóadatokban található személyes infók kiadására ösztönző promptokat adtak meg.

Az Amazon számára szerencsétlen, hogy egy ennyire új rendszer máris problémákkal küszködik. Nehezebb lesz így felvenni a versenyt a vetélytársakkal, például a ChatGPT-vel vagy a Microsoft Copilottal. A fejlesztőknek pedig kijózanító pofon lehet: ha gyorsan haladnak, pont a gyorsaság okozhat gondokat.

A nagy látásmodellek hatása a képfeldolgozásra

A nagy nyelvmodellek (large language models, LLM) megváltoztatták a szövegfeldolgozást. A nagy látásmodellekkel (large vision models, LVM) hasonló figyelhető meg: elkezdték megváltoztatni a képfeldolgozást.

A kettő között azonban van egy fontos különbség. Internetes szövegek eléggé hasonlítanak céges szövegekhez, így az előbbieken gyakoroltatott LLM-ek általában megértik a vállalati és a magándokumentumokat. Sok képalkalmazás viszont az internetes képekre egyáltalán nem hasonlító anyagokkal dolgozik. Ezekben az esetekben jobb, ha az alkalmazási területhez „igazított” témaspecifikus LVM-et használunk.

lvm.jpg

Az interneten, különösen az olyan oldalakon, mint az Instagram, rengeteg személyt, állatot, látványosságot és hétköznapi tárgyat ábrázoló kép található. Egy általános rendeltetésű LVM megtanulja felismerni a képek legfontosabb elemeit.

Sok iparág-specifikus alkalmazásnál a képek viszont nem vagy alig hasonlítanak a neten láthatókhoz. Sebészeti alkalmazásoknál például nagyteljesítményű mikroszkóppal felvett szövetminták képei kerülnek feldolgozásra. Ipari ellenőrzésnél egyetlen tárgy vagy tárgyrészlet képeivel dolgoznak. A képeket általában egyforma világítás mellett, ugyanazzal a kamerabeállítással készítik.

Néhány ilyen kép persze fellelhető online, azonban annyira kevés van belőlük, hogy az általános LVM-ek rosszul teljesítenek a legfontosabb jegyek felismerésében.

Speciális területre adaptált LVM-ek viszont sokkal jobban működnek az adott terület képeivel, jobban felismerik rajtuk a legfontosabb elemeket. Ezeket a modelleket kb. százezer címkézetlen területspecifikus képen elég gyakoroltatni, és máris megfelelő munkát végeznek. Persze minél több a kép, annál jobb az eredmény.

Ha előre gyakoroltatott LVM-et és felcímkézett kicsi adatsort együtt használunk felügyelet melletti tanulást igénylő feladatok megoldásához, a területspecifikus LVM-nek sokkal kevesebb felcímkézett adatra van szüksége általános LVM-hez hasonló teljesítmény eléréséhez. Tehát velük érdemes próbálkozni az internetes képektől nagyon különböző vizuális adatok feldolgozásakor.

Az LVM-ek persze még gyerekcipőben járnak, területspecifikus változataik többféleképpen gyakoroltathatók, szöveggel kombinálva pedig területspecifikus nagy multimodális modellek dolgozhatók ki.

süti beállítások módosítása