Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Elfogultak a könyvek

2021. június 03. - ferenck

Az amerikai Északnyugati Egyetem kutatói tüzetesen átvizsgálták a legalább harminc nagy nyelvmodell gyakoroltatására használt BookCorpus adatsort, és komoly hiányosságokat fedeztek fel benne. Kimutatták, hogy a korpusz többféleképpen befolyásolhatja a modellek tevékenységét, késztetheti őket elfogult döntéshozásra, előrejelzésekre.

Egy korpusz az adott nyelv adott periódusában használt szövegeinek összességre törekvő gyűjteménye. A számítástudomány elterjedésével, egyre könnyebbé vált nagymennyiségű természetes nyelven írt szövegből szerkesztett, változatos célokra, például szótárak készítésére használt nyelvi korpuszok létrehozása. A BookCorpus offline nem publikált szerzők műveinek tizenhat alműfajból (elsősorban kaland-, történelmi, romantikus regényekből) álló gyűjteménye.

konyvek.jpg

A kutatókat egy korábbi tanulmány inspirálta, amelyben a szerzők szabványosított módszert javasoltak az adatsorok tervezéséről szóló beszámolókhoz. Kihangsúlyozták, hogy az információhiány – sokszor nem lehet pontosan tudni, mi ment a korpuszokba – komoly gondokat okozhat a modellek működésében, negatív hatással lehet az outputokra.

Jelen tanulmány szerzői rávilágítottak az adatsor használhatóságát akadályozó problémákra.

A BookCorpus a Smashwords online kiadó által ingyen hozzáférhetővé tett, elvileg 11038 elektronikus könyv szövegét tartalmazza. Elvileg, mert a fájlok közül csak 7185 egyedi, több másolatot találtak, egyesekből rögtön ötöt. Közel száz fájlban pedig nincs semmiféle szöveg.

A vallásokkal összefüggő szavakat elemezve, megállapították, hogy az adatsor a kereszténységre és az iszlámra összpontosít, míg a judaizmust, a hinduizmust, a buddhizmust, a szikeket és az ateistákat kvázi ignorálja. A statisztikából nem nehéz azt a következtetést levonni, hogy a BookCorpuson gyakorló modellek nem egységesen ítélik meg a vallásokat.

A gyűjtemény szinte teljes egészében fikciókból áll, egyes műfajok pedig túlreprezentáltak. A legtöbb, 26,1 százalék kalandregény. Egyes szövegek gender-szempontból is elfogultak.

Az adatsor válogatói nem kaptak engedélyt a könyvek íróitól, sőt, többszáz kötetben szerepel, hogy a szöveg nem másolható.

Mindezek alapján ne lepődjünk meg, hogy a BookCorpuson gyakorló modellek hibáznak, pontatlanok, esetleg teljesen félrevezető eredménnyel állnak elő. Fontos lenne, ha dokumentáció figyelmeztetné a mérnököket a hiányosságokkal kapcsolatban, és így például még a szerzői jogokat sem sértenék meg.

A bejegyzés trackback címe:

https://jelenbolajovobe.blog.hu/api/trackback/id/tr8716579100
süti beállítások módosítása