Az NJSZT blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Diákok segítik kézzel írt régi szövegek olvasásában a mesterséges intelligenciát

2018. május 08. - ferenck

Hogyan férhet hozzá egy kutató a Szentszék tevékenységét a 8. század óta dokumentáló titkos vatikáni archívum óhajtott anyagához, tudja-e azt céljainak megfelelően használni? A 35 ezer kötetnyi katalógust tartalmazó polcok hossza ugyanis kb. 85 kilométer, az eddig leszkennelt és feltöltött anyagoké viszont kb. 2,5 centi, ráadásul az átiratokban nagyon nehéz számítógépes módszerekkel keresgélni.

Nemcsak azért, mert a Vatikán nem akarja megosztani az információkat, hanem mert a jelenlegi optikai karakterfelismerő (OCR) szoftverek képtelenek kezelni a kézírásokban gyakori szabálytalanságokat stb.

vatikan.jpg

Ha kutatók meg akarják tekinteni a dokumentumokat (és ha engedélyt is kapnak rá), csak egy választásuk marad: a helyszíni vizsgálódás.

Az archívum és a Roma Tre Egyetem kutatói projektet (In Codice Radio) indítottak a probléma megoldására. A dokumentumokat mesterséges intelligencia írja át. A legfőbb gond, hogy fejlett MI-k sem olvassák jól a kézírást.

A rendszer tanítását 120 diákra bízták. Saját fejlesztésű online platformon szavaztak két kiválasztott mintaoldal karaktereiről, hogy megfelelnek-e az adott betű paleográfus által hitelesített valamelyik változatának. Ha például a diák M betűt vélt felismerni, és az eléggé hasonlított a „hivatalos” verziókhoz, „igennel” voksoltak, és a karaktert fel is címkézték.

vatikan0.jpg

A teljes gyakorlóanyaggal néhány óra leforgása alatt végeztek. Az MI-nek azonban több tanulásra volt szüksége, és a diákok „mozaikos szegmentálás” módszerrel segítettek neki kézzel írt karakterek felismerésében. Szóláncok, betűkombinációk helyett vonalakat keresett. Egy M például nem tűnik egyetlen betűnek, hanem egymáshoz közeli három vonásból állhat. Az MI a korábbi adatsorból szerzett ismeretei alapján arra következtetett, hogy a vonalak együttese vagy M, vagy III.

Az olvasást megkönnyítendő, a szövegek nyelvén, latinul írt 1,5 millió szót tápláltak bele. Az előfordulási gyakoriság alapján képes volt már különbséget tenni M és III között – előbbit sűrűn, utóbbit nem (vagy nagyon-nagyon ritkán) láthatta a szavakban.

A Vatikáni Regiszter négy oldalán vizsgáztatták, és a szavak 65 százalékát helyesen írta át. Távolról sem végzett tökéletes munkát, tevékenysége mégis hasznos, mert paleográfusoknak komoly alapot ad, amellyel felgyorsítható a munka.

Az egyetemen már a rendszer finomításán dolgoznak. Az MI azért is lehet nagyon hasznos, mert naponta csak három dokumentum megtekintése engedélyezett. Egy kutató így jobban tudja, milyen anyagokért érdemes a Vatikánba mennie, és melyekért nem.

Ha az MI mindent átír, akár az egész gyűjteményben lehet majd kulcsszavak alapján keresni. Talán még Vatikánvárosba sem kell utazni hozzá.

A bejegyzés trackback címe:

http://jelenbolajovobe.blog.hu/api/trackback/id/tr4713891446

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.