Számítógépet használnak az ágensek

2025. február 18. - ferenck

Az Anthropic, a Google, az OpenAI és más mesterségesintelligencia-fejlesztők számítógép-használatra alkalmas ágenseken dolgoznak. A kínai Tsinghua Egyetem és a szintén kínai ByteDance vállalat kutatói bemutatták, hogyan gyakoroltathatók az ágensek alapjául szolgáló modellek ehhez.

UI-TARS modelljük a Qwen2-VL kép-nyelvmodell finomhangolt változata érvelést használva dönt arról, hogyan klikkeljen az egérrel, a billentyűzeten mire nyomjon rá, és sajátítson el más cselekvéseket desktop gép és mobilalkalmazások használatához. A súlyok az Apache 2.0-án keresztül kereskedelmi és nem-kereskedelmi célokra egyaránt szabadon használhatók.

A kutatók gondolatláncokkal (Chain-of-Thought, CoT) úgy bővítették a képernyőképekből és cselekvésekből álló gyakorló adatsort, hogy nem pontosított kép-nyelv modellt promptolva, az az aktuális cselekvéseket korábbi képernyőképek, cselekvések és generált CoT-k alapján magyarázta meg. Mivel a magyarázat időnként rossz volt, többféle CoT-t és cselekvést generáltak az adott képernyőképhez, majd kiválasztották a korrekt cselekvéshez vezető gondolatláncot.

A finomhangolt UI-TARS utasításból, képernyőképekből, CoT-kből és cselekvésekből CoT-t és cselekvést generált. Utána virtuális PC-n lefuttatták, kiszűrték a hibás CoT-ket és cselekvéseket, az outputokat pontozták, az alacsony pontszámúakat eltávolították, aztán a folyamatot és a finomhangolást megismételték. Humán résztvevők a CoT-ket és a cselekvéseket úgy korrigálták, hogy egyrészt elkerüljék a hibákat, másrészt, ha mégis van hiba, javítsák ki azokat.

Végül a modellt úgy optimalizálták, hogy az előző lépés hibás példáival szemben előnyben részesítse a javított példák generálását. Az UI-TARS következtetéshez kapott egy képernyőképet, egy utasítást és egy lehetséges műveletet, majd létrehozta a CoT-t és a végrehajtandó műveletet. Ezt követően új képernyőképet kapott, és megint generált hozzá gondolatláncot és cselekvést, és így tovább.

UI-TARS remek teszteredményeket ért el, például vagy ugyanúgy, vagy jobban teljesített, mint az Anthropic Claude 3.5 Sonnet csúcsmodelje.