A világ legjobb minőségű, a weben könnyen elérhető szövegeit már összegyűjtötték mesterségesintelligencia-modellek gyakoroltatásához. Így az új anyagok különösen értékessé válnak, ráadásul tudva azt, hogy a modellek mérete és adatétvágya egyre csak nő.
A Harvard bemutatta az egyetem nyilvános könyvtári korpuszát, a Google Books projekt keretében bedigitalizált közel egymillió szerzői jogdíjmentes könyvgyűjteményét. Ötször annyi szövegről van szó, mint a nagy nyelvmodellek (LLM-ek), például a Meta Llama 1 és Llama 2-jéhez használt, törvényes csatornákon már elérhetetlen Books 3.
A Harvard Jogi Könyvtár Innovációs Laborja a Microsoft és az OpenAI anyagi támogatásával állította össze a korpuszt. Jelenleg csak a Harvard diákjai, oktatói és alkalmazottai számára érhető el, de a felsőoktatási intézmény a Google-val közösen dolgozik azon, hogy világszerte hozzáférhetővé tegyék.
A korpusz történelmi jogi szövegeket, eseteket ismertető könyvek, statútumok és értekezések, évszázadokon és változatos joghatóságokon átívelő jogi ismeretek tárháza. Ráadásul csak szűk körben, például cseh, izlandi és welsh nyelven terjesztett könyveket is tartalmaz.
A munkák jól szemléltetik, hogy a mesterségesintelligencia-közösségeknek mennyire égető szükségük van jó minőségű szövegekre a nyelvmodellek pallérozásához. Emellett az Európai Unió MI Törvénye kötelezővé teszi, hogy a fejlesztők megjelöljék az általuk használt adatokat. A nyilvánosan elérhető adatkészletek megkönnyítik a törvénynek való megfelelést.
A közel kétszázezres Books 3 azért elérhetetlen már, mert több szerzői jogdíjjal védett kötet szerepelt a gyűjteményben. Egy másik méretes adatkészlet a többnyelvű, két-hárommillió nyilvános könyvet és újságot tartalmazó Common Corpus könyvtár.
A harvardi és hasonló projektek azt sugallják, hogy a könyvek között nagyon sok a kiváló minőségű szöveg, megéri bányászni közöttük. A klasszikus irodalom és a ritka dokumentumok szintén segítenek MI-modellek képzésében, diverzifikálják, szélesebb látókörűvé formálják őket.