Mit akarnak a nagy nyelvmodellek felhasználói?

2025. január 20. - ferenck

A mesterségesintelligencia-használat módszereit vizsgáló hagyományos megközelítések, mint például a felmérések eredményei pontatlanok. Prózai ok miatt azok: a megkérdezettek elnagyoltan vagy a valóságtól kicsit eltérően beszélnek tevékenységükről.

Az egyik legismertebb nagy nyelvmodell (LLM), a Claude-család fejlesztője, az Anthropic azért dolgozott ki új eszközt, hogy jobban megértsék, a felhasználók hogyan folytatnak interakciókat modellekkel. A Clio nevű rendszer a Claude 3.5 Sonnet-tel folytatott több mint egymillió anonim beszélgetést elemzett.

Automatikusan kivonatolt belőlük összefoglalókat, majd témakörökkel kapcsolatban klaszterezte őket. A személyiségi jogok (privacy) megőrzése érdekében névtelenné tette és összesítette az adatokat, és csak a klaszterekről árult el infókat. Clio munkájának célja a modell teljesítményének és biztonságának növelése.

Tevékenysége a Google Trends keresési viselkedést folyamatosan figyelő munkájához hasonló, a privacy az utóbbinál is kulcsszempont. Ez a megközelítési mód „szűk” felhasználási eseteket derít fel, hibákat azonosít, közrejátszik a gyakorló- és a tesztadatok személyre szabásában.

Clio feltárta Claude 3.5 Sonnet gyakori, nem gyakori és nem engedélyezett felhasználásait, töréseket (jailbreaks) emellett a rendszer hibás viselkedését is észlelte.

A modellt legtöbben szoftverfejlesztésre használják, a vele folytatott interakciók tizenöt-huszonöt százaléka a kódolásról szól, míg a webes és a mobil applikációk fejlesztése az összes beszélgetés több mint tíz százalékát fedi le. Az MI- és gépitanulás-alkalmazások hatot, a DevOps (a szoftverfejlesztés és üzemeltetés szoros együttműködésének gyakorlata) és a felhőszámítási infrastruktúra négyet, az adatelemzés 3,5-öt.

Az üzleti tevékenységgel kapcsolatos interakció mintegy kilenc százaléka szöveggenerálás és kommunikáció, akadémiai kutatás és írás valamivel több mint hét, üzleti stratégia és műveletek közel hat százalék.

A szűkös, szokatlan felhasználás többek között a Dungeons & Dragons nyíltvégű fantasy-szerepjáték játékmestereire, álmok értelmezésére, keresztrejtvények megoldására, focimeccs-elemzésre és katasztrófákra való felkészülésre vonatkozik.

Clio a vállalat felhasználói elveinek nagyléptékű megsértését is észlelte. Sokan például a biztonsági besorolást kijátszó promptokat kitalálva, szexuálisan explicit szerepjátékra használják a modellt. A biztonsági osztályozó hibáit szintén kimutatta: egyes beszélgetésklasztereket akkor jelöl meg, amikor nem kellene, másokat pedig akkor sem, amikor szükség lenne rá.