Értelmetlenek az MI-modelleket összehasonlító referenciaértékek?

2024. november 15. - ferenck

A gépi tanulás fejlődésének egyik fontos mutatója, hogy a begyakoroltatott modellek képesek-e a tanulás során nem tapasztalt problémákra eredményesen reagálni. Erre vannak a referenciaérték-tesztek (benchmarking). Csakhogy a tesztproblémák közül egyre több bekerült a képzési adatkészletekbe, amivel lehetetlenné vált a fejlődés akkurátus ellenőrzése.

Kutatók több széles körben használt referenciateszt-anyagban vettek észre nyugtalanító jeleket: egyes elemeik valahogy beszivárogtak a gyakorló adatok közé.

Az érettségi szintű matekproblémák teszteléséhez használt referencia-anyagon népszerű modellek feltűnően jobban teljesítettek, mint az alternatív teszteken. Csak egy magyarázat van rá: előzetesen láthatták a tesztsort vagy valami hasonlót.

Kutatók kimutatták, hogy referenciaértékek szennyezték a GPT-4 gyakorlásához használt adatkészletet.

Egy 2023-as tanulmányban kiértékelték, hogy a GPT-4 mennyire boldogul versenyszintű kódolási problémákkal. Kiderült, hogy 2021-es vagy korábbi versenyek problémáit könnyen megoldotta, későbbiekkel viszont komoly gondjai akadtak. Valószínűleg régebbi versenyeken gyakoroltatták. Az OpenAI idén bejelentette, hogy a GPT-4o-nál orvosolták a problémát.

Szubjektív értékelésnél szintén lehetnek komoly gondok. Az LMSys Chatbot Aréna is ilyen. Ha a modellek korábban használták az LMSys promptjait, jobban teljesítenek. Megoldásként az újonnan létrehozott Arena-Hard-ból és BenchBuilder-ből kiszedték a leggyakrabban használt promptokat.

A tesztek kiszivárgásának súlyos hosszútávú következményei lehetnek. Olyan, mintha egyetemi vizsga előtt a diákok hozzájutnának a vizsgakérdésekhez. Ezeknek a modelleknek nem azért javul a teljesítménye, mert annyit fejlődtek, hanem mert előzetesen ismerték a tesztet. Így viszont nem mérhető hitelesen az adott MI, és nem tudjuk, hol tart.

Megoldás lehet adatsoron belüli egyedi markerek alkalmazása, velük kiszűrhető a referenciaértékekkel való szennyeződés. Másik megoldás maguknak az értékeknek a folyamatos javítása, újabb és jóval nehezebb problémák bevezetésével. Persze a másolatok akkor is meg fognak jelenni a weben, amit úgy küszöbölhetünk ki, hogy a referenciaérték-tesztet csak privát szervereken futtatjuk.