Az amerikai Északnyugati Egyetem kutatói tüzetesen átvizsgálták a legalább harminc nagy nyelvmodell gyakoroltatására használt BookCorpus adatsort, és komoly hiányosságokat fedeztek fel benne. Kimutatták, hogy a korpusz többféleképpen befolyásolhatja a modellek tevékenységét, késztetheti őket elfogult döntéshozásra, előrejelzésekre.
Egy korpusz az adott nyelv adott periódusában használt szövegeinek összességre törekvő gyűjteménye. A számítástudomány elterjedésével, egyre könnyebbé vált nagymennyiségű természetes nyelven írt szövegből szerkesztett, változatos célokra, például szótárak készítésére használt nyelvi korpuszok létrehozása. A BookCorpus offline nem publikált szerzők műveinek tizenhat alműfajból (elsősorban kaland-, történelmi, romantikus regényekből) álló gyűjteménye.
A kutatókat egy korábbi tanulmány inspirálta, amelyben a szerzők szabványosított módszert javasoltak az adatsorok tervezéséről szóló beszámolókhoz. Kihangsúlyozták, hogy az információhiány – sokszor nem lehet pontosan tudni, mi ment a korpuszokba – komoly gondokat okozhat a modellek működésében, negatív hatással lehet az outputokra.
Jelen tanulmány szerzői rávilágítottak az adatsor használhatóságát akadályozó problémákra.
A BookCorpus a Smashwords online kiadó által ingyen hozzáférhetővé tett, elvileg 11038 elektronikus könyv szövegét tartalmazza. Elvileg, mert a fájlok közül csak 7185 egyedi, több másolatot találtak, egyesekből rögtön ötöt. Közel száz fájlban pedig nincs semmiféle szöveg.
A vallásokkal összefüggő szavakat elemezve, megállapították, hogy az adatsor a kereszténységre és az iszlámra összpontosít, míg a judaizmust, a hinduizmust, a buddhizmust, a szikeket és az ateistákat kvázi ignorálja. A statisztikából nem nehéz azt a következtetést levonni, hogy a BookCorpuson gyakorló modellek nem egységesen ítélik meg a vallásokat.
A gyűjtemény szinte teljes egészében fikciókból áll, egyes műfajok pedig túlreprezentáltak. A legtöbb, 26,1 százalék kalandregény. Egyes szövegek gender-szempontból is elfogultak.
Az adatsor válogatói nem kaptak engedélyt a könyvek íróitól, sőt, többszáz kötetben szerepel, hogy a szöveg nem másolható.
Mindezek alapján ne lepődjünk meg, hogy a BookCorpuson gyakorló modellek hibáznak, pontatlanok, esetleg teljesen félrevezető eredménnyel állnak elő. Fontos lenne, ha dokumentáció figyelmeztetné a mérnököket a hiányosságokkal kapcsolatban, és így például még a szerzői jogokat sem sértenék meg.