A nagy nyelvmodellek (LLM) legújabb generációja túlmutat a nyelven. Ezekkel a mesterséges intelligenciákkal már multimodálisan, szöveg mellett vizuálisan, a kép-szöveg valamilyen kombinációjával, hang és más módszerekkel is kommunikálunk, változatos utasításokat, promptokat adhatunk nekik, amelyekre aztán valamilyen választ generálnak.
Az OpenAI GPT-4V, azaz a vizuális elemmel kiegészült GPT-4 ma a legismertebb ilyen modell. A Microsoft kutatói behatóan tesztelték a benne rejlő potenciált, és változatos feladatokat használva értékelték ki a promptolás adta lehetőségeket.
Az opciók között képek, szavak és számítógépes kódok közötti kifinomult interakciók is szerepeltek. A beszámolókban csak – pozitív és negatív – kvalitatív eredmények olvashatók. Más konkurens modellel, például a LLaVA-val nem végeztek összehasonlítást.
A GPT-4V-nek vizuális promptot adva, egy képen belül kiemelve az érdeklődésre számot tartó részt, majd dobozokkal és szöveges címkékkel hangsúlyozva azt, a modell teljesítménye folyamatosan javult.
Nem sorrendbe rakott képsorozatot látva, a GPT-4V azonosította az első eseményt, majd előrejelezte a következőket. Amikor pontos sorrendben kapta meg a képeket, leírta a cselekménysorozatot.
Amikor tengerparti tájról kapott fényképet, és arra kérték, hogy csökkentse a nézők érdeklődését, elmagyarázta, hogy a sziklák csúszósak és élesek, a hely pedig alkalmatlan a fürdésre.
Koponya MRI-vizsgálata alapján, szakértő radiológusi véleményt kértek a modelltől, amelyre pontos diagnózissal állt elő. A kiértékelést szakemberek végezték.
Egyszer a GPT-4V által generált képaláírások több részletet tartalmaztak, mint a valóságos példák. A kutatók ebből azt a következtetést vonták le, hogy a meglévő benchmarkok (kiválóság, teljesítmény mércéje, amelyhez hasonlókat kell mérni, megítélni) nem teszik lehetővé a kép tartalmának megértését.
A kvalitatív példák látványosak, de úgy válogatták össze őket, hogy csak felvillantsanak valamit a GPT-4V lehetőségeiből. A Microsoft szerint a modell viselkedése nem konzisztens, és bőven akad rajta finomítani való.