Nagy nyelvi modellek mindenkinek

2022. augusztus 11. - ferenck

Általában nagy infokom vállalatok fejlesztenek nagy nyelvi modelleket. Az ok világos: kisebb cégek nem tudják megengedni maguknak sem az egyre gigantikusabb adatsorokat, sem a szintén napról napra növekvő, szükséges számítási kapacitásokat.

Független kutatóknak ezért nyílik ritkán lehetőség a modellek teljesítményének értékelésére, az esetleges elfogult és káros kimenetek kimutatására.

Egyes szervezetek, például a BigScience és az EleutherAI részben erre a tendenciára reagálva, saját nagy nyelvi modelleket tettek közkinccsé. A modellek nyílt forrásúak, kutatók hozzájuk férhetnek.

A BigScience 2021 májusában egyéves workshop-sorozatot indított azzal a céllal, hogy átláthatóbb, hitelesíthetőbb és a lakosságot jobban reprezentáló nyílt forrású mesterségesintelligencia-modelleket dolgozzanak ki. Az együttműködés eredményeként mutatták be a csak angol, maximum 11 milliárd paramétert használó TO nyelvimodell-családot.

Az elmúlt két évben, a GPT-3 indulásától, változni látszik a tendencia – a Google, a Meta és az OpenAI is nyílt hozzáférést biztosít modellekhez. Értékes kutatásokat és más kereskedelmi projekteket akarnak bátorítani vele.

A hetekben megjelent a BigScience – szintén a workshopokon alapuló – legújabb modellcsaládja, a BLOOM. A kollektívában a világ különböző pontjain található 250 intézet ezernél több kutatója dolgozik együtt, a BLOOM pedig az eddigi legnagyobb nyílt forrású nyelvi modell.

A BLOOM az OpenAI GPT-3-ját utánozza. Szabványos 1,6 milliárd terabájtos adatsoron gyakoroltatták, hogy 46 természetes nyelv és 13 programozói nyelv bármelyikén generáljon kimeneteket.

Az adatok nagy részét manuálisan vizsgálták át, hogy elkerüljék a részrehajlást. Szignifikáns mennyiségű pornótartalmat azért szűrtek ki, mert szerintük más adatsorokban túlreprezentált a téma.

A gyakorlást az adatok és a modell 384 GPU-n (grafikus feldolgozóegység) történő elosztásával gyorsították fel. Jelenleg hat méretben érhető el, a legkisebb 351 millió, a legnagyobb 176 milliárd paraméteres. A teljes változathoz bárki hozzáférhet, aki rendelkezik Hugging Face fiókkal.