A nagy nyelvmodellekről (LLM-ek) köztudott, hogy képesek kifejezetten rosszul viselkedni.
Áprilisban a ChatGPT a felhasználók által megszokott, mérsékelten hízelgő változattal szemben, átment agresszívbe, például pszichés problémákkal küszködőknek javasolta gyógyszereik mellőzését. Az OpenAI gyorsan korrigálta a hibákat. Az xAI Grokja MechaHitlerként hivatkozott magára, és úgy is viselkedett, mint egy 4chanes neonáci. Muskék hamar kijavították.
Az Anthropic friss tanulmánya szerint az olyan tulajdonságok, mint a talpnyalás vagy a gonoszság speciális aktivitásmintázatokhoz társíthatók az LLM-eknél, ezeknek a mintázatoknak betanítás közbeni bekapcsolásával viszont – paradox módon – megakadályozható, hogy a modell a későbbiekben átvegye a hozzájuk kapcsolódó tulajdonságokat.
Ha megtaláljuk személyiségének neurális alapjait, remélhetőleg megérthetjük, miért történik így, és módszereket dolgozhatunk ki a jobb kontrollra – nyilatkozta a projektet vezető Jack Lindsey.
A „személyiség” szó egyeseknek az LLM-ek hibás antropomorfizálása, mások számára viszont a megszemélyesítés hatékonyan ragadhat meg a modellek által mutatott viselkedésmintákat. A lényeg, hogy egyelőre nem értjük teljesen, mi történik a belsejükben.
Korábbi kutatások kimutatták, hogy az LLM-ek viselkedésének különböző dimenziói összefüggésben állnak a modelleket alkotó szimulált neuronok speciális aktivitásmintáival. A mintázatok hosszú számsorozatokként írhatók le, minden egyes szám az adott idegsejt aktivitási szintjét jelzi.
A kutatók három elkerülendő LLM-típusra/személyiségre (a hízelgőre, a gonoszra és a hallucinálóra) fókuszálva. a mintázatokat azonosító módszert dolgoztak ki. Amikor a későbbi teszteken ilyen reakciókat generáltak, ugyanazok az aktivitásminták jelentek meg. Ebből az is következhet, hogy a mintázatokat követő, és a felhasználót problémákra előre figyelmeztető rendszert fejlesztenek.
A személyiség detektálása önmagában azonban nem elég, és a kellemetlen viselkedés megelőzése is bonyolult feladat. Sok LLM emberi visszajelzésekből tanul, és így preferenciáinkkal összhangban viselkednek. De ezzel túlzott engedelmességre is ösztönözzük őket. Nemrég derült ki, hogy a matematikai problémák pontatlan megoldásain vagy hibás kódokon tanított modellek valamilyen módon megtanulnak etikátlan válaszokat adni kérdésekre. Aktivitásminták stimulálhatók és el is nyomhatók, amivel azonban a teljesítmény is romolhat.
Az Anthropic kutatói ezért kapcsolták be a tréningnél a negatív jegyeket, és a hibákkal teli tanuló adatkészletek után, az LLM-ek segítőkészek és ártalmatlanok maradtak, miközben a teljesítmény sem romlott.