A finnugor nyelveket beszélő mintegy 25 millió személy – a magyarok miatt – kisebbik fele Északkelet-Európában, a Baltikumban és Oroszországban él. A legelterjedtebbeket, a magyart 13-14, a finnt 6-7, az észtet 1,1 millióan, a mordvint 740 ezren beszélik anyanyelvként.
A finn Tartu Egyetem Számítástudományi Intézetének kutatói intézményük gépitanulás-motorját a komival, a manysival és további tizennégy finnugor nyelvvel bővítették. A szakemberek anyanyelvi beszélőket és kutatókat hívtak meg, hogy javítsanak a fordítások minőségén, de versek, újságcikkek, könyvek és más szövegek is sokat segítenek, azok beküldésére szintén számítanak.
A projekt 2021-ben, az északi és déli számival (lapp nyelvekkel) és a hagyományosan az észt egyik déli dialektusának, de ma már irodalmi nyelvnek tekintett vöroval indult. Utóbbi beszélői arra törekednek, hogy Észtországban – autochton (őshonos) regionális nyelvként – hivatalosan is elfogadják.
A mai Lettország nyugati területén, mindössze kb. húsz anyanyelvi beszélő által használt legveszélyeztetettebb – a Wikipédia szerint 2013-ban kihalt – lívet is 2021-ben tették fel a listára.
A természetesnyelv-feldolgozással foglalkozó Lisa Yankovskaya szerint a visszacsatolások nélkülözhetetlenek a jó minőségű fordításhoz, mert sok finnugor nyelven annyira kevés a forrás, hogy nagyon nehéz jól működő fordítórendszert kidolgozni hozzájuk.
Mindez azt jelenti, hogy a fordítás minősége változó, minél kevesebb a forrás, annál gyengébb. Másrészt, az anyanyelvi közreműködők jelentősen hozzájárulhatnak a pontos fordításhoz. Ritka nyelvek esetében filológusok is sokat segíthetnek.
A gépi fordítás – és általában a fordítások – a kihalástól fenyegetett, veszélyeztetett nyelvek esetében a fennmaradás egyik lehetőségét jelentik, és a beszélőket is támogatják. A Turku Egyetem rendszere éppen ezért bárki által szabadon használható, a modellek és a szoftver természetesen nyílt forráskódúak.
A munkában a Lettországi Egyetem, a Vöro Intézet, a Kelet-Finnországi Egyetem és a norvég Arktikus Egyetem is részt vesz.