Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Huszonhárom finnugor nyelvet fordít le a Tartui Egyetem rendszere

2023. március 22. - ferenck

A finnugor nyelveket beszélő mintegy 25 millió személy – a magyarok miatt – kisebbik fele Északkelet-Európában, a Baltikumban és Oroszországban él. A legelterjedtebbeket, a magyart 13-14, a finnt 6-7, az észtet 1,1 millióan, a mordvint 740 ezren beszélik anyanyelvként.

A finn Tartu Egyetem Számítástudományi Intézetének kutatói intézményük gépitanulás-motorját a komival, a manysival és további tizennégy finnugor nyelvvel bővítették. A szakemberek anyanyelvi beszélőket és kutatókat hívtak meg, hogy javítsanak a fordítások minőségén, de versek, újságcikkek, könyvek és más szövegek is sokat segítenek, azok beküldésére szintén számítanak.

finnugor.jpg

A projekt 2021-ben, az északi és déli számival (lapp nyelvekkel) és a hagyományosan az észt egyik déli dialektusának, de ma már irodalmi nyelvnek tekintett vöroval indult. Utóbbi beszélői arra törekednek, hogy Észtországban – autochton (őshonos) regionális nyelvként – hivatalosan is elfogadják.

A mai Lettország nyugati területén, mindössze kb. húsz anyanyelvi beszélő által használt legveszélyeztetettebb – a Wikipédia szerint 2013-ban kihalt – lívet is 2021-ben tették fel a listára. 

finnugor0.jpgA természetesnyelv-feldolgozással foglalkozó Lisa Yankovskaya szerint a visszacsatolások nélkülözhetetlenek a jó minőségű fordításhoz, mert sok finnugor nyelven annyira kevés a forrás, hogy nagyon nehéz jól működő fordítórendszert kidolgozni hozzájuk.

Mindez azt jelenti, hogy a fordítás minősége változó, minél kevesebb a forrás, annál gyengébb. Másrészt, az anyanyelvi közreműködők jelentősen hozzájárulhatnak a pontos fordításhoz. Ritka nyelvek esetében filológusok is sokat segíthetnek.

A gépi fordítás – és általában a fordítások – a kihalástól fenyegetett, veszélyeztetett nyelvek esetében a fennmaradás egyik lehetőségét jelentik, és a beszélőket is támogatják. A Turku Egyetem rendszere éppen ezért bárki által szabadon használható, a modellek és a szoftver természetesen nyílt forráskódúak.

A munkában a Lettországi Egyetem, a Vöro Intézet, a Kelet-Finnországi Egyetem és a norvég Arktikus Egyetem is részt vesz.

A bejegyzés trackback címe:

https://jelenbolajovobe.blog.hu/api/trackback/id/tr4318077160
süti beállítások módosítása