Hogyan férhet hozzá egy kutató a Szentszék tevékenységét a 8. század óta dokumentáló titkos vatikáni archívum óhajtott anyagához, tudja-e azt céljainak megfelelően használni? A 35 ezer kötetnyi katalógust tartalmazó polcok hossza ugyanis kb. 85 kilométer, az eddig leszkennelt és feltöltött anyagoké viszont kb. 2,5 centi, ráadásul az átiratokban nagyon nehéz számítógépes módszerekkel keresgélni.
Nemcsak azért, mert a Vatikán nem akarja megosztani az információkat, hanem mert a jelenlegi optikai karakterfelismerő (OCR) szoftverek képtelenek kezelni a kézírásokban gyakori szabálytalanságokat stb.
Ha kutatók meg akarják tekinteni a dokumentumokat (és ha engedélyt is kapnak rá), csak egy választásuk marad: a helyszíni vizsgálódás.
Az archívum és a Roma Tre Egyetem kutatói projektet (In Codice Radio) indítottak a probléma megoldására. A dokumentumokat mesterséges intelligencia írja át. A legfőbb gond, hogy fejlett MI-k sem olvassák jól a kézírást.
A rendszer tanítását 120 diákra bízták. Saját fejlesztésű online platformon szavaztak két kiválasztott mintaoldal karaktereiről, hogy megfelelnek-e az adott betű paleográfus által hitelesített valamelyik változatának. Ha például a diák M betűt vélt felismerni, és az eléggé hasonlított a „hivatalos” verziókhoz, „igennel” voksoltak, és a karaktert fel is címkézték.
A teljes gyakorlóanyaggal néhány óra leforgása alatt végeztek. Az MI-nek azonban több tanulásra volt szüksége, és a diákok „mozaikos szegmentálás” módszerrel segítettek neki kézzel írt karakterek felismerésében. Szóláncok, betűkombinációk helyett vonalakat keresett. Egy M például nem tűnik egyetlen betűnek, hanem egymáshoz közeli három vonásból állhat. Az MI a korábbi adatsorból szerzett ismeretei alapján arra következtetett, hogy a vonalak együttese vagy M, vagy III.
Az olvasást megkönnyítendő, a szövegek nyelvén, latinul írt 1,5 millió szót tápláltak bele. Az előfordulási gyakoriság alapján képes volt már különbséget tenni M és III között – előbbit sűrűn, utóbbit nem (vagy nagyon-nagyon ritkán) láthatta a szavakban.
A Vatikáni Regiszter négy oldalán vizsgáztatták, és a szavak 65 százalékát helyesen írta át. Távolról sem végzett tökéletes munkát, tevékenysége mégis hasznos, mert paleográfusoknak komoly alapot ad, amellyel felgyorsítható a munka.
Az egyetemen már a rendszer finomításán dolgoznak. Az MI azért is lehet nagyon hasznos, mert naponta csak három dokumentum megtekintése engedélyezett. Egy kutató így jobban tudja, milyen anyagokért érdemes a Vatikánba mennie, és melyekért nem.
Ha az MI mindent átír, akár az egész gyűjteményben lehet majd kulcsszavak alapján keresni. Talán még Vatikánvárosba sem kell utazni hozzá.