Hogyan építsünk nagy nyelvmodellekre alkalmazásokat?

2023. augusztus 21. - ferenck

Egyre több nagy nyelvmodell (LLM) nyílt forrású vagy majdnem az, így fejlesztők több opció között választhatnak, hogy hogyan és milyen alkalmazásokat építsenek rájuk.

A legegyszerűbb mód az utasításadás (prompting). Az előzetesen gyakoroltatott LLM-nek utasításokat adva, gyakorlósor nélkül percek, maximum órák alatt elkészülünk az alkalmazás prototípusával. Egyre többen tesznek így, és a trend erősödése várható.

Egy fokkal bonyolultabb az egy- vagy többlövéses „promptolás”, azaz a modellnek kevés adatot használva, megadunk egy vagy több (főként kettő-öt) utasítást, példákat, hogy hogyan hajtsa végre a feladatot. Az eredmények általában jobbak, mint az első opciónál.

A finomhangolás a harmadik. A sok szövegen előzetesen gyakoroltatott modellt saját magunk által összeállított kis adatsoron történő további gyakoroltatással a feladatnak megfelelően hangoljuk át. A rendelkezésre álló eszközök fokozatosan javulnak, egyre több fejlesztő rendelkezésére állnak.

Az előzetes gyakoroltatás a negyedik, de a semmiből indulva sok forrás kell hozzá, így kevesen alkalmazzák a módszert. Változatos témákon gyakoroltatott általános modellek mellett, a módszerrel speciális, például pénzügyi (BloombergGPT) vagy orvosi (Med-PaLM-2) alkalmazások készíthetők.

Legcélszerűbb a gyors eredménnyel járó elsővel kezdeni. Ha nem vagyunk elégedettek, a bonyolultabb technikákat fokozatosan használjuk, és csak akkor ugorjunk a következőre, ha valamelyik végképp nem működik. A finomhangolás például nagyságrendekkel komplexebb, és sokkal több példa is kell hozzá.

Ha szabadalmaztatott modellel, mondjuk a GPT-4-gyel szeretnénk dolgozni, vegyük figyelembe, hogy nem finomhangolható. Az se biztos, hogy sokkal kisebb modellek finomhangolása jobb eredménnyel jár, mintha nagyobbakat promptolunk.

Minden az alkalmazástól függ – ha az LLM kimenetének a stílusán akarunk változtatni, működik a kisebb modellek finomhangolása. Ha viszont az alkalmazásunktól a GPT-4 promptolásával várunk összetettebb következtetéseket, akkor jó modellel próbálkozunk, mert ezen a téren az összes nyílt forrású változatra ráver.

A fejlesztői megközelítés mellett a modell kiválasztása is nagyon fontos. A kisebbekhez kevesebb számítási kapacitás kell, sok alkalmazásban jól működnek. A nagyobbak azonban több ismerettel rendelkeznek a világról, ezért a következtetéseik is jobbak.