Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Propagandafigyelő

2020. november 10. - ferenck

A mai infokommunikációs technológiákkal egyre könnyebb és olcsóbb hamis információt létrehozni és terjeszteni. Az interneten rengeteg kamuhírbe belefutunk, viszont a mesterségesintelligencia-technikák mind inkább segítenek a hamis tartalmak kiszűrésében.

Mivel a humán elemzők egyre nehezebben kezelik a folyamatosan ránk zúduló információ- és dezinformációáradatot, MI nélkül ma már kezelhetetlen a probléma.

A dezinformációt észlelő technikák nemcsak a nemzetbiztonságnak, hanem például a katasztrófavédelemnek, a közegészségügynek és általában a demokratikus folyamatoknak is komoly segítséget nyújtanak.

propagandafigyelo0.jpg

Az amerikai hadsereg (többek között) természetesnyelv-feldolgozó (natural language processing, NLP) technikákkal is igyekszik küzdeni az egyre súlyosabb méreteket öltő dezinformáció ellen.

A San Franciscói Primer startup a híreket, közösségi médiát, kutatásokat és beszámolókat propagandaszövegek kiszűrése céljából átnéző, a tervek szerint 2021 júniusában munkába álló rendszert fejleszt. A cég NLP modellekre, például több dokumentumot összegző megoldásokra specializálódott.

A dezinformáció-detektáló módosított XLNet nyelvi modellel csoportosítja cikkekben személyek, helyek, szervezetek stb. nevét. A modellt több nyelven megadott entitásokra jelölő neveket tartalmazó adatsoron gyakoroltatták, majd védelmi, pénzügyi, hírekből és tudományos dokumentumokból álló korpuszon finomhangolták.

Nem meglepő módon angolul, oroszul és kínaiul olvas.

A rendszer ismeretgráfon csoportosított neveket indexel, hogy aztán más, speciálisabb modellek elemezzék azokat. Ezt követően jönnek a humán elemzők, akik a modellek outputjában próbálnak mintázatokat találni.

„Nem igazságdetektoron dolgozunk. Olyan szenzortömböt építünk, amellyel az elemzőknek a mintákat nagyobb léptékben kell látniuk, mint amit az ember fel tud fogni” – jelentette ki John Bohannon, a Primer tudományos igazgatója.

Egy bemutatón a rendszer 3 ezernél több hírt elemzett az örmény-azeri konfliktusról. Megállapította, hogy orosz médiumok az azeriakat támogató Törökország, Moszkva egyik geopolitika riválisának a felelősségéről akarták meggyőzni a nyilvánosságot. A rendszer csak orosz oldalaknál tapasztalta, hogy ennyire érintettek az ellentétben.

Szívtelenek a kamuvideók kamufejei

Az utóbbi évek egyik legnyugtalanítóbb jelensége a tényeket tagadó, a valósággal köszönőviszonyban sem lévő, gyakran összeesküvés-elméleteken alapuló kamuhírek (fake news) gyors terjedése. A médiakorszak egyik tanulsága és egyben alapja, hogy a kép, különösen a mozgókép jóval hatékonyabb az írott szövegnél.

Kamuképeket régóta készítenek, a mostani technológia viszont egyre jobb minőséget garantál. Állóképek mellett bevett módszer filmekbe, videókba, reklámokba beilleszteni fejeket stb. Teljesen legális tevékenység, ugyanakkor a mesterségesintelligencia-megoldásokkal támogatott eljárás rossz célokra, megtévesztésre, félrevezetésre, személyek manipulálására is használható.

deepfake_1.jpg

Az úgynevezett deepfake jelenség ezért okoz egyre több problémát. Érthető módon nő az igény az ezeket detektáló – általában szintén mesterségesintelligencia-alapú – technikák iránt.

Japán, szingapúri és kínai kutatók megállapították, hogy a valódi videókon látható fejek az azokon értelemszerűen nem látható folyamatos szívverés miatt különböztethetők meg a kamuvideóktól.

deepfake0_1.jpg

DeepRhythm nevű rendszerük a bőrfelületen a vérkeringés miatt keletkező változásokból indul ki. Ezek a változások mérhetők.

A mostani modellek nem veszik figyelembe a vérkeringés miatti módosulásokat, következményként a manipulált videók készítői szintén nem tudják figyelembe venni. Az újonnan fejlesztett rendszert viszont betanították rá, és így fel is ismeri a kamuvideókat.

A DeepRhythm két alrendszerből áll.

Az első a képkockákon és a vérkeringés hatására hangsúlyos területeken elkülöníti az arcokat. A szívritmus arcmozgásokra való hatásait vizsgáló korábbi kutatások eredményeit használták fel hozzá. Az arcszín apró változásainak pontosabb kimutatására a mozgásokat felnagyító két technikát dolgoztak ki. 

A másik alrendszer megvizsgálja őket, majd osztályozza a videókat. Az arcokat hálóra rendezi, aztán idegháló súlyozza a környezeti hatásokat, például az arcszín fény miatti változásait. Ezt követően két modell az egész hálón súlyozza a „hamisság-szintet.” Utána jöhet az osztályozás: kamu vagy igazi a videó?

Drónraj dokumentálja az antarktiszi Adélie pingvinek életét

A kaliforniai Stanford Egyetem kutatói az amerikai Nemzeti Tudományos Alappal és az USA Antarktika Programmal együttműködve, több drónos képalkotó rendszert állítottak munkába a legdélebbi kontinensen, az Egyesült Államokhoz tartozó McMurdo állomáson.

A drónok rendeltetése, hogy segítsenek az összesen 1 milliónál több állatból álló Adélie pingvinkolóniák megfigyelésében. A rendszer 2 négyzetkilométeres területen mintegy 300 ezer fészkelő párról, egy másikon pedig 3 ezerről generált részletes vizuális anyagot.

antarctica1.jpg

Korábban ezeken a helyszíneken több mint két napot időztek az ember által vezetett drónok. Most viszont mindkettővel két és félóra alatt végeztek.

A gyorsabb kivitelezés egy úttervező algoritmusnak köszönhető. Az algoritmus koordinálta a drónokat; hol kettőt, hol négyet, biztosította az eredményes lefedettséget, miközben korlátozta a visszaléptetést és a felesleges plusz-utazgatást.

antarctica0.jpg

A légből készült eddigi pingvin-megfigyeléseket általában helikopterről vagy drónról végezték, drónrajt még nem használtak hozzájuk.

Helikopterről nagyon jó minőségű képeket készítettek, a költségek viszont magasak voltak, sok üzemanyag fogyott el, és a madarakat is nagyobb eséllyel zavarták. Magányos drónokkal túl időigényes a megfigyelés, ráadásul biztonságos távolságból, a kolóniától legalább 5 kilométerről kell útnak indítani őket. A navigációjuk sem könnyű, és mindezek tetejébe elemeik élettartama is komoly probléma. Csupán 12-15 percig bírják, így gyakran kell oda- és visszarepülni, a töltőállomásra.

Mivel az Antarktiszon dolgoznak, az időjárási és légköri viszonyok sűrűn, sokszor egyik pillanatról a másikra változnak. A gyorsaság ezért is kitüntetetten fontos.

„Autonóm robotok alkotta csoportok tényleg hatékony segítséget jelenthetnek a világ kezelésében, megváltoztatásában, vagy a környezetünk korábban elképzelhetetlen léptékű átalakításában” – jelentette ki az algoritmus egyik fejlesztője, Marc Schwager, stanfordi kutató.

Hangóra halláskárosultaknak

Az okosórák környezetünkről és magunkról tájékoztatnak – jelzik a telefonhívást, ha csomagot kézbesít a postás, figyelmeztetnek, ha valami nem stimmel az egészségünkkel.

A Washington Egyetem kutatói az okosóra (smart watch) koncepciót továbbgondolva, siketek és halláskárosultak számára dolgoztak ki a környezet zajairól informáló alkalmazást (az androidos készülékekre letölthető SoundWatch-t). Ha az óra érzékel a felhasználó érdeklődésére számot tartó hangot (szirénaszót, mikrohullámú sütő jelzését stb.), azonosítja azt, majd értesíti és információt is küld róla.

A fejlesztők azokra a hangokra összpontosítottak, amelyekre valamilyen szinten reagálni kell. Másrészt, viszont arra is ügyeltek, hogy az app segítse használóját a világhoz való kapcsolódásban. Egyes hangok, például a madárcsiripelés vagy a vízesésé pont ebben segítenek sokat.

hang_ora.jpg

Első körben kizárólag otthoni hangokkal foglalkozó rendszert (HomeSound) fejlesztettek, amely a lakás különböző pontjain elhelyezett, egymással és más eszközökkel összekapcsolt Microsoft Surface tabletekkel dolgozott, és értesítette a felhasználót a hangokról, forrásukról. A kijelzők hanghullámokat jelenítettek meg, és akkor is működtek, amikor a felhasználó nem tartózkodott otthon.

A tesztek után, a második prototípus már gépi tanulással valósidőben csoportosította a hangokat. 31 órányi, 19 jól ismert otthoni hangból (ajtónyitás, kutyaugatás, csecsemősírás, macskanyávogás stb.) készítettek adatsort.

Ezt követően álltak át okosórára, hogy a felhasználó bárhol, még akkor is, ha az okostelefon nincs nála, például edzőteremben is értesüljön a környező zajokról. A sikerhez meg kellett oldaniuk a készülék korlátozott tároló- és feldolgozó kapacitása, valamint a korlátozott élettartamú elem miatti problémákat.

Speciális tömörítő osztályozóval próbálkoztak, majd elvetve azt, az okosórát összekapcsolták az okostelefonnal.

Az appot három Seattle-höz közeli helyszínen (egyetemi irodahelyiségben, épülethallban, buszmegállóban) tesztelték, és a tesztalanyok elégedettek voltak vele.

A kutatók kiterjesztett valóságot (Augmented Reality, AR) használó alkalmazáson, a HoloSoundon is dolgoznak. Az app a HoloLense kevert valóság headseten keresztül küld, gépi tanulás segítségével feldolgozott valósidejű hanginformációkat a felhasználónak.

Videohívás hologrammal

David Nussbaum, a PORTL Hologram alapítója előbb a Reagan Memorial Könyvtárt lepte meg virtuális Ronald Reagannel, majd a nashville-i countryzenei díjátadóra közvetlenül Hollywoodból juttatta el a helyszínre Jimmy Kimmel televíziós műsorvezető, komikus, író és producer hologramját.

Startupja a következő fázison, a hologram-alapú kommunikációt biztosító gépen dolgozik. Nem egyedi esetekben, hanem tömegekben gondolkoznak, aminek viszont ellentmond a kütyü 60 ezer dolláros, borsos ára.

hologram.jpg

Az új típusú videohívás lényege a hívó felek 3D képének kivetítése; nagyjából úgy, mint a Csillagok háborújában. Egyébként ugyanazon a technológián alapul, amellyel a legendás és már rég halott rapper, Tupac Shakur koncerten lépett fel nyolc esztendeje.

A megoldást természetesen frissítik, az élményt a lehető legélethűbbé igyekeznek tenni, hogy a beszélgető felek tökéletesen alámerüljenek benne, hogy teljes legyen az immerzió.

hologram0.jpg

Az ajtószerű eszköz olyan, mintha a másik szobára nyitnánk egy kaput, innen jön a PORTL név is. A felhasználó a túloldalon lévőnek beszél, és a választ környezeti hangeffektus kíséretében hallja. Ez az effektus jelzi, hogy merre nézzen.

Mivel például a Google és a Zoom videohívásai ingyenesek, egyelőre nehéz felmérni és elképzelni, hogy ki fogja használni az új technológiát. A cég viszont elmondta, hogy többtucatnyi magánszemély mellett bevásárlóközpontoknak, repülőtereknek és moziknak is adtak el belőle.

Nussbaum azonban tisztában van a túl magas árral, és a „portálból” nyilvánvalóan nemcsak több tucatot akarnak értékesíteni. Be is jelentette, hogy már dolgoznak a jóval olcsóbb és kisebb változaton. Az új verzióval nincs szükség egy szoba teljes magasságára hologramok felvételéhez és továbbításához. A cégvezető azt is elárulta, hogy az előfizetéssel új funkciók is járnak majd.

A tervek szerint a miniváltozatok speciális tartalomtípusokat szolgáltatnak. A cél érdekében, a startup tárgyalásokat folytat jól ismert tartalomkészítőkkel. A hologram-kommunikációhoz mindenképpen egyedi és exkluzív kontentet akarnak.

Mi történik a fekete doboz belsejében?

Meg fogjuk-e valaha is érteni, mi történik egy mesterséges idegháló belsejében? – merül fel egyre sűrűbben a kérdés. Nem véletlenül, mert amikor mesterségesintelligencia-rendszereknél elromlik valami, kiszámíthatatlanná válnak, általában senki nem tudja elmagyarázni, mi vezetett a rossz döntésekhez.

A modell bemeneténél, az inputnál végbemenő érzékelhetetlen változások bizarr outputokhoz vezethetnek. Látszatra jól megtervezett rendszerek figyelmeztetés nélkül generálnak részrehajló, elfogult eredményeket.

Ha nincs magyarázat, értelemszerűen hiányérzetünk van, úgy érezzük, hogy megkárosítottak minket.

feketedoboz.jpg

Ideghálók döntéseit közismerten nehéz megmagyarázni, alkalmazásaik viszont emberek életét befolyásolhatják. Ráadásul még akkor sem bízunk teljesen a kimenetben, ha a laborban teljesen pontos eredményeket értek el.

Például a helyi kormányok által használt modellek Arkansas-ban és Idahóban drasztikusan csökkentették többezer személy társadalombiztosítási járandóságát. Az érintetteknek fogalmuk sem volt az okokról, így a fellebbezést is nehezen tudták megfogalmazni.

Egy alacsony felbontású orvosi képeket feljavítani hivatott, hat ideghálóról készült tanulmányból kiderült: az inputokat gyakran megváltoztatták, módosítottak rajtuk, és ezért nem tekinthetők megbízható diagnosztikai eszköznek. A mélytanuló rendszerek nem szolgáltatnak adatot a szükséges képek minőségéről, a fejlesztőknek jobban oda kell figyelni a korlátaikra.

Egy másik mélytanuló rendszer a beteg tünetei alapján pontosan megjósolta a skizofréniát. A fejlesztők viszont elmondták, hogy modelljüket mindaddig nem tudják használni a pszichológusok, amíg nem lesz világos számukra, hogy az MI hogyan prognosztizál.

Ezek a megoldások az MI döntéshozási módszere körüli bizonytalanság miatt nem terjedhettek el egyelőre széles körben. Egy friss tanulmányból kiderül: az Egyesült Királyság pénzügyi informatikai szektorában dolgozók 89 százaléka szerint a transzparencia hiánya miatt ódzkodik az MI-től.

Az európai uniós adatszabályozás alapján jogunkban áll, hogy hozzáférjünk az életünket befolyásoló technológiákra vonatkozó információkhoz. Az adatszolgáltatásról megfeledkező fejlesztők büntetésre számíthatnak.

Csődbe vihetik a kutatásokat az óriási modellek

Az egyre masszívabb mesterségesintelligencia-modellek gyakoroltatásához döbbenetes számítási kapacitások kellenek. A nagyobb kapacitásokkal törvényszerűen a költségek is nőnek. A folyamat eredményeként eljutottunk addig a pontig, hogy a csúcsmodellekkel való munkát csak a leggazdagabb vállalatok és kormányzati ügynökségek engedhetik meg maguknak.

A növekvő árak különösen a kevésbé tehetős gazdaságokban gátolják a startupok, felsőoktatási intézmények, diákok fejlődését. A fogyasztók, olcsóbb alternatívákat keresve, végül el is fordulhatnak az MI-től.

Például a képosztályozás vagy tárgyazonosítás viszonyítási pontját (benchmark) elérő modellek trenírozása többmillió dollár. Ráadásul az árak szélvészgyorsan emelkednek. Az OpenAI felmérése alapján a mindenkori legfejlettebb modellek gyakoroltatásához szükséges számítási kapacitás 2012 és 2018 között három és félhavonta megduplázódott.

ai_2.jpg

A csúcsminőség elérésének, meghaladásának csillagászati költségei miatt több intézmény újragondolja stratégiáját. Az áremelkedés ugyanis főként ezzel, a legjobb modellek túlszárnyalásának vágyával magyarázható. Ha kevesebbel megelégszünk, olcsóbban megússzuk.  

A nonprofit laborként indult OpenAI például profitot termelő gazdasági vállalkozássá alakult át, szeptemberben a Microsoftnak exkluzív kereskedelmi licenc formájában bocsátották rendelkezésre a GPT-3 nyelvmodellt.

Az egyik európai élelmiszerlánc viszont úgy döntött, hogy a számítási felhőbeli árak miatt lemond raktára mesterséges intelligenciával történő folyamatos figyeléséről. A példák folytathatók.

A növekvő számítási kapacitások nemcsak az árakat srófolják fel, hanem az energiafogyasztás is nő. A Massachusetts Egyetem 2019-es tanulmánya alapján egy nagy nyelvmodell gyakoroltatásával ötször annyi széndioxid generálódik, mint egy átlagautó teljes életciklusa alatt.

A seattle-i Allen Intézet kutatói szerint az energiahatékonyság legalább annyira fontos, mint a modell pontossága, és a teljesítmény-méricskélésnél ezt is figyelembe kellene venni. A versenyt mindenesetre úgy kellene növelni, hogy kutatási támogatásokkal minél szélesebb körök hozzáférjenek a szükséges számítási kapacitásokhoz, amelyeket aztán környezetbarát módon használnak ki.

Melyik IT-munkakörök egyre keresettebbek az USA-ban?

A többek között a Wikimédiához és a WordPresshez is használt PHP az első szkriptnyelvek közé tartozik; külső fájl helyett HTML oldalba ágyazható, jól használható dinamikus weblapok és webes alkalmazások készítéséhez.

Nem a legkúlabb mai technológia, viszont nagyon sokat ér, ha ismerjük, és új munkaerőként keresünk technológiai állást az Egyesült Államokban – legalábbis ez derül ki az Indeed álláskereső motor adataiból. Azért ennyire fontos, mert az egyik leggyakrabban használt szkriptnyelv.

Döbbenetes számok: január óta 834 százalékkal emelkedett a kezdő PHP-fejlesztők iránti kereslet, ami egyben azt is jelenti, hogy az összes infokom állás közül náluk a leggyorsabb a növekedés.

php.jpg

Kezdőszinthez tartozik, ha csak 1-5 év gyakorlattal rendelkezünk, és ha a HTML mellett a CSS-t, a HTML5-öt és a JavaScriptet is ismerjük.

Január óta szintén nagyon megnőtt az ugyancsak nem a leglátványosabb állásoknak számító junior ügyfélszolgálati operátorok és a kezdő PC-technikusok iránti igény – az előbbieknél 501, az utóbbiaknál 434 százalékkal. Ezekhez a munkakörökhöz többéves Windows-gyakorlat, a Microsoft-termékek alapos ismerete és jó kommunikációs készség kell. Az ügyfélszolgálatisok órabére 42,5, a technikusoké 18,3 dollár, ami megegyezik az amerikai nemzeti átlaggal.

A lista negyedik helyezettje a junior vállalati architektúra szakembereké, 278 százalékos növekedéssel. Jó üzleti érzék és megfelelő technológiai ismeretek elengedhetetlenek hozzá.

A junior technológiai tanácsadók iránti igény 256 százalékkal emelkedett. Szakmai gyakorlattal rendelkező friss számítástudományi diplomások jó eséllyel pályáznak ezekre az állásokra. Analitika, adatalapú megoldások, tervezési, szoftver- és rendszerimplementálási készség, megfelelő kommunikációs adottságokkal szerepelnek az elvárások között, és persze kell hozzá a Salesforce, a HTML5, a CSS és az XML alapos ismerete is.

A senior CAD-operátoroknál 234 százalékos a növekedés. Náluk a Microsoft Office, a CAD, az AutoCAD, a MicroStation ismerete, kiváló következtető, matematikai és geometriai ismeretek a követelmény.

A következő keresett állás a szerver- és tárolás-architektúra szakember, 167 százalékos kereslet-emelkedéssel. A Microsoft SQL Server, a Java ismerete, szoftverfejlesztés, a beágyazott szoftverekben és a middleware-ben való jártasság az elvárás.

A senior technikai igazgató poszt szintén nagyon keresett állás, a kereslet 140 százalékkal nőtt.

Összességében, több szektorral ellentétben, a Covid-19 eddig különösebben nem befolyásolta az infokom álláspiacot.

Arcfelismeréssel azonosítják a sisakjuk által eltakart rendőröket

Az arcfelismerő technológiák nagyon sok vihart váltottak ki az utóbbi időben. A George Floyd halálát követő tüntetéshullám után pedig még többen ellenzik ezeket a megoldásokat, és nemcsak magánszemélyek, hanem nagyvállalatok és nemzetközi szervezetek is.

A bűnüldözésben kétségtelenül sokat segítenek, másrészt viszont könnyű visszaélni velük, mert magánéleteket, személyes szférákat (privacy) sérthetnek. Ráadásul gyakoriak a félrevezető hamis pozitívok is, amikor más személyt azonosít a rendszer.

rendorok.jpg

A gyakorlóadatok szintén több kérdést vetnek fel, és egyre sűrűbben emlegetik az adatsorok részrehajló, elfogult „alaptermészetét.”

Az amerikai megmozdulások azonban nemcsak és nem elsősorban randalírozók, vandálok, hanem az egészet elindító rendőrök túlkapásainak fényében is érdekessé teszik a technológia használatát. Ugyanis nemcsak a bűnüldözők élhetnek vele, hanem ellenük is alkalmazhatók.

rendorok0.jpg

Rendőrök kizárólag akkor tehetők felelőssé a túlkapásaikért, ha nem titkolják az identitásukat. Ennek megfelelően egyre több amerikai aktivista fejleszt arcfelismerő technológiát azzal a kifejezett céllal, hogy a zsaruk beazonosíthatók legyenek.

Fordul a kocka, eddig a hatalom őrei használták tiltakozók és gyanús személyek ellen, most ellenük dolgozhatnak vele. 2020-ban és 2020 Amerikájában már semmi sem meglepő, ez sem az. Ugyanazzal a technológiával küzdenek a tüntetőket verő rendőrök ellen, mint amellyel ők figyelik a lakosságot.

Az egyiket Christopher Howell autodidakta programozó fejlesztette. Portland-ben, Oregon állam fővárosában alkalmazta egy tüntetésen személyazonosságukat – engedéllyel – titkoló rendőrökkel szemben. Maga a város megtiltotta az arcfelismerés hatósági és céges használatát, Howell viszont engedélyt kapott rá. Magánszemélyről és hobbiprojektről van szó – állt a verdiktben.

„Nagyon sok itt a túlkapás. Az a minimum, hogy tudjuk, kik a rendőrök” – nyilatkozta a fejlesztő.

A technológia kidolgozása nem igényel nagy szakmai tudást, boltokban megvásárolható szoftverekkel is működik. Aktivisták szerint az igazi kihívás, hogy találjanak elég képet a helyi rendőrökről, mert azokon kell gyakoroltatni az algoritmust. Szerencséjükre a közösségi médiában van most bőven.

„Sokáig mindenki attól tartott, hogy a nagyemberek használják a kisfiúk azonosítására és elnyomásra, most viszont már közelítünk oda, hogy megfelelő technológiai ismeretekkel a kisfiúk is ugyanezt tehetik a nagyemberekkel. Nemcsak az anonimitás végéről, hanem az aljasság megfenyegetéséről van szó” – nyilatkozta egy hasonló projekten dolgozó fejlesztő, Andrew Maximov.

Kihalt nyelvekről fordít angolra az algoritmus

A valaha létező nyelvek nagy részét ma már nem beszélik, ráadásul többtucatnyi halott is közülük. Nem tudjuk átírni őket, nem ismerjük sem a nyelvtanukat, sem a szókészletüket, sem a mondattanukat. Ezek hiányában fennmaradt szövegeiket sem értjük.

Szövegek nélkül hiányosak a beszélőkre vonatkozó ismereteink, és mivel általában minimális írott emlék maradt fenn, a gépifordítás-algoritmusok sem tudnak mit kezdeni velük. Sok esetben nincs ismert rokon nyelv, és így az összehasonlítás sem működik.

MIT-s (Massachusetts Institute of Technology) kutatók azonban egy halott nyelven fennmaradt szövegek más nyelvekhez való kapcsolatának mélyebb ismerete nélkül is megfejtő rendszert fejlesztettek. Maga a rendszer állít fel kapcsolatokat, állapítja meg a hiányukat. Sokakkal ellentétben,  a rendszer szerint például nincs rokonság a rég kihalt ibériai és a baszk között.

forditas.jpg

A fejlesztés célja nyelvészek által évtizedek óta negligált halott nyelvek megfejtése néhányezer szó alapján.

A kutatást vezető Regina Barzilay szerint technológiájuk figyelembe veszi az általános nyelvtörténet alapelveit, például, hogy nyelvek általában csak egyes előrejelezhető módokon fejlődnek – teljes hangok ritkán keletkeznek, és tűnnek el, inkább helyettesítődnek, mint mondjuk, az eredeti nyelv p-jéből az „utódoknál” b lesz, és nagy valószínűséggel nem k.

A rendszerbe ilyen megkötéseket tápláltak be, hogy az algoritmus képes legyen a lehetséges átalakulások kezelésére. A több dimenzióban dolgozó modell az adott nyelven szegmentál szavakat, és kapcsolja össze őket rokonnyelvekkel. A kapcsolatokra az algoritmus következtet, de akár nyelvcsaládokat is felfedezhet. Például a baszk és a latin hiába van közelebb az ibériaihoz, mint bármelyik más (román, germán, türk, uráli) nyelvcsalád, az eltérések túl nagyok ahhoz, hogy rokonok legyenek.

A kutatók a jövőben túl akarnak lépni azon, hogy szövegeket ismert nyelvek hasonló szavaihoz kapcsoljanak. Következő lépésben a szavak szemantikájára összpontosítanak, amit az sem zavar, ha nem tudják elolvasni őket.

A történelmi evidenciák ismeretében személyek és helyek referenciáit azonosíthatják. Az előszeretettel használt entitás-felismerés technika eddig bevált a szöveg-feldolgozásnál, nagyon pontosnak tartják.

Kérdés, hogy a régi nyelven íródott gyakorlóadatok nélkül kivitelezhető-e a feladat.

süti beállítások módosítása