Kihalt nyelvekről fordít angolra az algoritmus

2020. október 28. - ferenck

A valaha létező nyelvek nagy részét ma már nem beszélik, ráadásul többtucatnyi halott is közülük. Nem tudjuk átírni őket, nem ismerjük sem a nyelvtanukat, sem a szókészletüket, sem a mondattanukat. Ezek hiányában fennmaradt szövegeiket sem értjük.

Szövegek nélkül hiányosak a beszélőkre vonatkozó ismereteink, és mivel általában minimális írott emlék maradt fenn, a gépifordítás-algoritmusok sem tudnak mit kezdeni velük. Sok esetben nincs ismert rokon nyelv, és így az összehasonlítás sem működik.

MIT-s (Massachusetts Institute of Technology) kutatók azonban egy halott nyelven fennmaradt szövegek más nyelvekhez való kapcsolatának mélyebb ismerete nélkül is megfejtő rendszert fejlesztettek. Maga a rendszer állít fel kapcsolatokat, állapítja meg a hiányukat. Sokakkal ellentétben, a rendszer szerint például nincs rokonság a rég kihalt ibériai és a baszk között.

A fejlesztés célja nyelvészek által évtizedek óta negligált halott nyelvek megfejtése néhányezer szó alapján.

A kutatást vezető Regina Barzilay szerint technológiájuk figyelembe veszi az általános nyelvtörténet alapelveit, például, hogy nyelvek általában csak egyes előrejelezhető módokon fejlődnek – teljes hangok ritkán keletkeznek, és tűnnek el, inkább helyettesítődnek, mint mondjuk, az eredeti nyelv p-jéből az „utódoknál” b lesz, és nagy valószínűséggel nem k.

A rendszerbe ilyen megkötéseket tápláltak be, hogy az algoritmus képes legyen a lehetséges átalakulások kezelésére. A több dimenzióban dolgozó modell az adott nyelven szegmentál szavakat, és kapcsolja össze őket rokonnyelvekkel. A kapcsolatokra az algoritmus következtet, de akár nyelvcsaládokat is felfedezhet. Például a baszk és a latin hiába van közelebb az ibériaihoz, mint bármelyik más (román, germán, türk, uráli) nyelvcsalád, az eltérések túl nagyok ahhoz, hogy rokonok legyenek.

A kutatók a jövőben túl akarnak lépni azon, hogy szövegeket ismert nyelvek hasonló szavaihoz kapcsoljanak. Következő lépésben a szavak szemantikájára összpontosítanak, amit az sem zavar, ha nem tudják elolvasni őket.

A történelmi evidenciák ismeretében személyek és helyek referenciáit azonosíthatják. Az előszeretettel használt entitás-felismerés technika eddig bevált a szöveg-feldolgozásnál, nagyon pontosnak tartják.

Kérdés, hogy a régi nyelven íródott gyakorlóadatok nélkül kivitelezhető-e a feladat.