A generatív mesterséges intelligencia (MI) forradalma a nagy nyelvmodelleken (large language models, LLM) alapul. Honnan jönnek, milyen technológiákból fejlődtek ki az LLM-ek?
A természetes nyelvfeldolgozás (natural language processing, NLP) korai éveiben a munkák jelentős részét az Egyesült Államok katonai hírszerzési ügynökségei finanszírozták. Egyszerű okból: gépi fordításra és beszédfelismerésre volt szükségük.
Ezek az ügynökségek a múltban is nagymennyiségű szövegeket és felvett beszélgetéseket, beszédeket elemeztek. Az anyagok különböző nyelveken készültek.
A sok idegen nyelv miatt az amerikai hadsereg technológiai ügynökségei, főként a DARPA (Fejlett Védelmi Kutatási Projektek Ügynöksége) évtizedeken keresztül rengeteg pénzt fektettek a gépi fordításba és a beszédfelismerésbe. A komoly támogatás a kutatókat arra motiválta, hogy az NLP más felhasználási területeivel összehasonlítva, aránytalanul nagy figyelmet szenteljenek ennek a két alkalmazásnak.
Az NLP történetének sok komoly technikai újítása – jóval több, mint gondolnánk – ezért vezethető vissza a mai alkalmazásokban szerény szerepet játszó fordításra.
A Google Brain mondatok egyik nyelven történő „feltérképezésére”, és annak a másik nyelvre történő átültetésére vonatkozó, az LLM-ek alapjait lerakó 2017-es tanulmányában (Attention Is All You Need) bevezetett transzformer-technikától egyenes út vezetett a ChatGPT-ig. A transzformer gyökerei a gépi fordítás klasszikus korszakába nyúlnak vissza.
Az LLM-ek, kimeneteik „alapigazság” példákkal való összehasonlításos kiértékeléséhez alkalmanként még ma is használják a 2002-es BLEU score-t. Utóbbival a gépi fordítást vetették össze a hitelesnek elfogadott eredeti, emberi fordítással.
Az LLM-ek egyik kulcseleme, a tokenizáció, nyers input szövegek feldolgozás közben tokenekké váló részszavakká (például: „token” és „izáció”) töréséhez leggyakrabban a 2015-ben népszerűvé vált Byte Pair Encoding (BPE) algoritmust használják.
A BPE fejlesztői a gyakorlóadatokban nem szereplő szavakat is lefordító modellt akartak építeni. Rájöttek, hogy szavak részszavakká osztásával olyan input reprezentáció hozható létre, amellyel a modell korábban nem látott szavakat is kitalálhat.
Tehát ez a technika is visszavezethető a klasszikus gépi fordításig.