Egy éve ilyenkor az MI-modellek csak akkor hajtották végre a „gondolkodj lépésről lépésre, indokold meg az érvelésedet, dolgozz visszafelé a választól” érvelési stratégiákat, ha így promptoltuk őket. Ma már a legtöbb új nagy nyelvmodell (LLM) magától értetődően alkalmazza ezeket, feladatok széles skáláján javítva a teljesítményt.
Az OpenAI vezette be az – ágensszerű érvelési munkafolyamaton alapuló – első érvelő-következtető, tehát „gondolkodó” modellt, az o1-et, 2025. januárban pedig a kínai DeepSeek R-1-e mutatta meg, hogyan épülnek fel ezek a képességek. A matematikai és a kódoló teljesítmény azonnal javult, a kérdésekre pontosabb válaszok érkeztek, javulnak az MI-vel működő robotok, gyorsan fejlődnek az MI-ágensek.

Japán és Google-kutatók 2023-as A nagy nyelvmodellek nulla esélyes érvelők (Large Language Models Are Zero-Shot Reasoners) tanulmányában jelent meg először a promptolás „lépésről lépésre” történő kiegészítése. Rájöttek, hogy ezeknek a szavaknak a manuális hozzáadásával javul az output. Aztán mások is, ráadásul mindezen túl még arra is, hogy a képességet modellekké képezhetik, és ez, valamint egyéb érvelési stratégiák explicit promptolás nélkül is alkalmazhatók. A megerősítéses tanulással történő finomhangolás a kulcs: ha egy előre betanított LLM-et jutalmaznak a helyes outputért, akkor előbb „átgondolja” a dolgokat, és csak utána generál kimenetet.
Az első érvelő-következtető modelleket matematikai problémák megoldására, tudományos kérdések megválaszolására, teszteken átmenő kódok generálására tanították be. Miután elsajátították a számológépek, keresőmotorok és más eszközök használatát, még jobb teljesítményre lettek képesek, multimodális megértés-teszteken, akár száz területet átfogó technikai szakértelem megmérettetéseken teljesítettek egyre jobban. A megerősítéses tanulással trenírozott robot-cselekvőmodellek nyolc százalékkal javultak, és az új modellek az ágensek képességeit is növelik, például valóvilágbeli problémákat gyorsabban orvosló algoritmusok készíthetők velük.
Ugyanakkor lehetséges az is, hogy az érvelő-következtető modellek mégsem annyira racionálisak, mint amennyire annak tűnnek. Elképzelhető, hogy a komplexitás bizonyos szintjét meghaladó puzzle-ok megoldására alkalmatlanok, vagy a lépések között kihagynak a következtetésben kulcsfontosságú információkat. Például a promptban és az outputban szerepel egy utalás, de az érvelés során nem tesznek róla említést.
Mindezeket figyelembe véve is egyértelmű, hogy az érvelés-következtetés nagyon feljavította az LLM-ek teljesítményét. A jobb outputnak viszont ára van, rengeteg tokent elhasználnak hozzá, lassabban születik meg a végeredmény. Szerencsére már dolgoznak a megoldáson (Claude Opus 4.5, GPT-5.1).













