Finomhangolással nagy nyelvmodellekben (LLM) olyan tulajdonságok fejleszthetők ki, mint a vidámság vagy a hízelgés. Az Anthropic, az Austini Műszaki Egyetem és a Kaliforniai Egyetem Berkeley kutatói módszert dolgoztak ki ezeknek a karakterjegyeknek az azonosítására, monitorozására és szabályozására.
A személyiség vektorokat, azaz egy LLM rétegkimeneteiben lévő, karakterjegyeknek megfelelő mintákat azonosítottak. A vektorokat természetes nyelvű leírások segítségével a tulajdonságokat gyengítő vagy erősítő automatizált folyamatot dolgoztak ki.

Miközben a modell személyiségjegyeket, például gonoszságot mutató több példát dolgoz fel, az adott kimenet rétegeinek átlagolása a tulajdonság reprezentációját eredményezi. És persze bármi mást is, ami közös a kimenetekben, például egy adott nyelvet vagy mondatszerkezetet.
Ha csak a tulajdonságot akarjuk reprezentálni, a tulajdonság átlagos reprezentációját kivonhatjuk az ellentétének az átlagos reprezentációjából. Így eltűnnek a közös jellemzők, és az eredmény felhasználható a modell személyiségének szabályozására. Például ha kimenet-generálás közben adjuk hozzá a belső állapotához, akkor felerősítjük, a kivonással pedig csökkentjük az adott tulajdonságot.
A kutatók három tulajdonságra mutató személyes vektorokat vontak ki LLM-ekből (Qwen2.5-7B, Llama-3.1-8B): gonoszság, szélhámosság és hallucinációra való hajlam. A vektorokat három dolog tesztelésére használták: milyen mértékben hatottak a promptok a tulajdonságokra, mennyire tudták irányítani az LLM viselkedését, mennyire tudták előrejelezni egy adott adatkészlet finomhangolásának hatását egy-egy tulajdonság kifejeződésére?
A személyiségjegyeket felerősítő/csökkentő ellentétpár-promptokat („ördögi MI vagy”, „segítőkész MI vagy”) a Claude 3.7 Sonnet generálta, míg a tulajdonság intenzitásának a nagy nyelvmodell válaszában való kifejeződését a GPT-4.1-minivel mérték.
A kutatás eredményeként a gépi tanulással foglalkozó mérnökök LLM-ek személyiségét proaktívan kezelő eszközhöz jutnak. Ahelyett, hogy csak a finomhangolás után derítenék ki az LLM képmutatóvá válását, személyiség vektorokkal a finomhangoló adatok előzetesen szűrhetők, megjelölhetők a valószínűleg nem kívánt eltolódásokat okozó teljes adatkészletek.
Ha a személyiségjegy-eltolódások előrejelezhetők, akkor a finomhangolási folyamat is kiszámíthatóbb, a kimenetek pedig biztonságosabbak. A kutatás másik tanulsága, hogy még az LLM-ekben megfigyelhető magasszintű viselkedési tendenciák is strukturálhatók, szerkeszthetők.









