Hogyan javítsunk a promptokon?

2023. november 03. - ferenck

A nagy nyelvmodellek (LLM) legújabb generációja túlmutat a nyelven. Ezekkel a mesterséges intelligenciákkal már multimodálisan, szöveg mellett vizuálisan, a kép-szöveg valamilyen kombinációjával, hang és más módszerekkel is kommunikálunk, változatos utasításokat, promptokat adhatunk nekik, amelyekre aztán valamilyen választ generálnak.

Az OpenAI GPT-4V, azaz a vizuális elemmel kiegészült GPT-4 ma a legismertebb ilyen modell. A Microsoft kutatói behatóan tesztelték a benne rejlő potenciált, és változatos feladatokat használva értékelték ki a promptolás adta lehetőségeket.

Az opciók között képek, szavak és számítógépes kódok közötti kifinomult interakciók is szerepeltek. A beszámolókban csak – pozitív és negatív – kvalitatív eredmények olvashatók. Más konkurens modellel, például a LLaVA-val nem végeztek összehasonlítást.

A GPT-4V-nek vizuális promptot adva, egy képen belül kiemelve az érdeklődésre számot tartó részt, majd dobozokkal és szöveges címkékkel hangsúlyozva azt, a modell teljesítménye folyamatosan javult.

Nem sorrendbe rakott képsorozatot látva, a GPT-4V azonosította az első eseményt, majd előrejelezte a következőket. Amikor pontos sorrendben kapta meg a képeket, leírta a cselekménysorozatot.

Amikor tengerparti tájról kapott fényképet, és arra kérték, hogy csökkentse a nézők érdeklődését, elmagyarázta, hogy a sziklák csúszósak és élesek, a hely pedig alkalmatlan a fürdésre.

Koponya MRI-vizsgálata alapján, szakértő radiológusi véleményt kértek a modelltől, amelyre pontos diagnózissal állt elő. A kiértékelést szakemberek végezték.

Egyszer a GPT-4V által generált képaláírások több részletet tartalmaztak, mint a valóságos példák. A kutatók ebből azt a következtetést vonták le, hogy a meglévő benchmarkok (kiválóság, teljesítmény mércéje, amelyhez hasonlókat kell mérni, megítélni) nem teszik lehetővé a kép tartalmának megértését.

A kvalitatív példák látványosak, de úgy válogatták össze őket, hogy csak felvillantsanak valamit a GPT-4V lehetőségeiből. A Microsoft szerint a modell viselkedése nem konzisztens, és bőven akad rajta finomítani való.