A promptmérnök lesz a közeljövő egyik legfontosabb IT-állása?

2022. október 24. - ferenck

A szöveg- és a képgenerátorok, GPT-3, AI21 és Jurrasic, illetve DALL-E, Midjourney és Stable Diffusion korában a promptok azok a mesterséges intelligenciának adott szöveges utasítások, inputok, amelyek alapján az MI szöveget, képet generál. Néhány szóban, mondatban leírjuk neki, mit szeretnénk látni, olvasni, majd a rendszer előáll a megoldással.

Nem könnyű megfelelő utasításokat kitalálni, ezért a promptok az ember-gép együttműködés egyre fontosabb elemei, a közeljövő meghatározó felhasználói interfészeivé válhatnak.

De hogyan készítsünk tényleg működő szöveges utasításokat, amelyek után az output valóban olyan lesz, amilyennek szeretnénk? Például milyen melléknév a legcélszerűbb egy állat leírásához?

Nehéz kiszámítani a rendszerről rendszerre változó eredményt, és többek szerint a promptmérnökség az MI-fejlesztés egyik meghatározó iránya lehet.

Hogyan jutottunk el eddig?

Nagy mennyiségű szöveg vagy szöveg-kép adat webes összegyűjtésével lehetővé vált, hogy kutatók szöveges inputot szöveges vagy vizuális outputtá átalakító modelleket gyakoroltassanak. Mivel az input kulcsfontosságú, egyre többen kísérleteznek egyre találóbb, pontosabb promptokkal.

Andrew Ng gépitanulás-szakértő szerint a prompttervezés valóban fontos, de csak része a kirakós játéknak. Inkább a számítógépeknek szándékainkat pontosan, intuitív és kontrollálható módon jelző felhasználói interfészekben látja a jövőt.

A beszédszintézisnél (szövegek számítógépes úton beszéddé alakításánál) a fejlett rendszerek specifikálják, hogy a mondat mely részét milyen érzelmi töltéssel mondjuk. Virtuális gombokkal növelhetjük, csökkenthetjük az adott érzelem intenzitását. Az input finomhangolásával kontrolláljuk a nyelvi kimenetet. Az output ismeretében pedig – visszamenőleg – az utasításokat is kontrollálhatjuk, és a fordított iterációt mindaddig folytatjuk, amíg az elképzelt beszédet meg nem kapjuk.

Ng hasonló virtuális gombokat képzel el képgeneráláshoz, amelyeket például úgy állítjuk be, hogy a kép harminc százalékban art deco, hetven százalékban Bosch legyen. Vagy szkeccseket készítünk, és az MI azok alapján áll elő képpel.

Nagy nyelvi modellek esetében még bonyolultabb a helyzet. Ha empatikus, tömör vagy valamilyen más prózát akarunk generáltatni velük, tényleg a minél jobb promptok időnként véletlenszerű keresésével, találgatásukkal jutunk el a kívánt outputig?

Ng szerint, ha nagyon speciális eredményt szeretnénk, az outputok frusztrálóan egyhangúak, általánosak. A szöveges utasítások egyértelmű és általánosítható tartalmaknál, például „egy bambuszt evő pandánál” jól működnek, új felhasználói interfészekkel, innovatív szöveg- és grafikus szerkesztőket használva viszont sokkal eredményesebbek lennénk, és a szöveg vagy a kép is jobban passzolna eredeti elképzelésünkhöz.