Nehezen tanulnak kínai szövegeken a mesterségesintelligencia-modellek

2024. május 30. - ferenck

A multimodális GPT-4o-val hanggal, szöveggel, videóval interakcióba léphetünk. A modell megjelenése utáni napokban viszont több probléma felmerült az OpenAI csúcstermékével kapcsolatban.

Scarlett Johansson például hangja jóváhagyása nélküli utánzásával vádolta a céget. Aztán kiderült, hogy a szövegek hatékonyabb elemzésében és feldolgozásában segítő tokenizálóhoz használt adatokat kínai spam webhelyek szennyezik. Hallucinációk, gyengébb teljesítmény és helytelen használat lehetnek a következmények.

A GPT-4o nyilvános és jelentősen frissített token-könyvtárában a száz leghosszabb kínai tokenből legalább kilencven (például „ingyenes japán pornóvideók megtekintésre”, „pekingi autóverseny-fogadás”, „minden nap kínai jóléti lottó” stb.) ilyen honlapokról származik – állítják többen. A nyelvmodell nyilván nem ezekkel és hasonló tokenekkel fog kínaiul is jól teljesíteni.

Néhány ilyen elkerülhetetlenül belecsúszik a tanuláshoz használt adatkészletbe, már csak azért is, mert a felnőtt tartalom vagy a fogadások nagyon népszerűek online. Modellek kínaiul gyakoroltatására viszont nyilván nem kilencven százalékban ezeket kellene használni, ennyire nem lehetnek rossz minőségűek a kínai nyelvű adatok.

A probléma jórészt a hozzáférhető gyakorlóadatok minőségében rejlik, hogy mikkel trenírozta az OpenAI a GPT-4o-t. Kiderült, hogy ha a trenírozás nem a kínai állami média anyagain történik, nagyjából tényleg erre számíthatunk. Vagy a „hivatalos” változatot kapjuk, hogy hogyan lehet az országról beszélni, vagy a valódi beszélgetést ellehetetlenítő szemetet. A nem pornó és hirdetéses tokenekben például ilyenek szerepelnek: „kínai tulajdonságjegyeket tartalmazó szocializmus”, „Kínai Népköztársaság” stb. Mivel ezek a kifejezések előfordulnak a GPT-4o repertoárjában, elég egyértelmű, hogy a hivatalos kínai média is a források között szerepel. (Az OpenAI köztudottan elég szűkszavú a modelljeihez használt gyakorlóadatok eredetét illetően.)

A nagyvállalat nincs egyedül, a problémával mások is szembesültek. Nincsenek minőségi kínai szövegek nagy nyelvmodellek (LLM-ek) trenírozásához. Talán azért nem, mert a kínai internetet a helyi vezető cégek uralják, és sem egymás között, sem kívülállókkal nem osztozkodnak. A Google keresőmotorja sem teljesít jól, ha kínaiul kutakodik. A WeChat platformjain csak a WeChat keresgélhet, a Douyin (a kínai TikTok) tartalmaiban csak a Douyin, és így tovább. A tényleges beszélgetések ezeken és nem a spamoldalakon folynak.

A minőségi gyakorlóadatok hiánya sokkal nagyobb probléma, mintha nem sikerül kiszűrni a pornót vagy az általános nonszenszeket. Ha nincs megfelelő adatkészlet, MI-fejlesztőcégeknek jóval több munkát kell elvégezniük a sajátjuk kidolgozásában. Úgy tűnik, az OpenAI ezt nem tette meg, bár a Kínai Népköztársaságban élő kínaiak se így, se úgy nem tudják használni a cég mesterségesintelligencia-modelljeit.