Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

A webes ágensek keresési nehézségei

2025. február 28. - ferenck

Speciális célok megvalósításáért böngészni a webet nagy nyelvi modelleken (LLM), de még látás-nyelvmodelleken (VLM) alapuló ágenseknek is komoly kihívás. Egyes megközelítések az alapmodell gyakoroltatásakor kezelik a problémát, az ágensarchitektúra viszont változásokat hozhat.

A pittsburghi Carnegie Mellon Egyetem (CMU) kutatói fabejáró technikát vezettek be nyelvmodell-ágenseknek. A módszerrel ugyanúgy kezelhetik a webes interakciókat, mint a fabejárásnál. A fabejárás vagy fakeresés fa-adatszerkezetek minden egyes csúcsának egyszeri feldolgozása, egyfajta gráf-bejárás. Ezeket az algoritmusokat a csúcsok bejárási sorrendje alapján osztályozzák. A CMU ágensei lehetséges cselekvési láncokat tárhatnak fel, és a hibák megismétlését kerülhetik el így.

webesagensek.jpg

Webes feladatok, például egy adott cikk árának megkeresése közbülső cselekvések sorozatát igényli: a helyes oldalra navigálni, görgetés a cikk megtalálásához, a cikk képe és az oldalon lévő kép összekapcsolása stb. Ha az ágens rossz linkre klikkel, eltévedhet. A lehetséges cselekvések kiértékelési és a weblapok előző állapotaira való emlékezés képessége segítheti hibái korrigálásában, a célt megvalósító cselekvéslánc kiválasztásában.

Egy GPT-4o-n alapuló ágens kétszáz feladattal próbálkozott, online kiskereskedelmi üzletet, Reddit-féle fórumot és apróhirdetés-jegyzéket utánzó weboldalakat használva. A feladatok között szerepelt egy adott címre szállítandó áru megrendelése, konkrét képek keresése a fórumon, hirdetés feladása. A kutatók az összes interakcióra alkalmas vizuális elemet határoló kerettel és numerikus ID-vel azonosító, speciális módszerrel kommenteltek minden egyes oldalt. 

Az ágens weboldallal és utasítással kezdte, az oldalról képet juttatott el az LLM-nek, amely öt lehetséges cselekvést jelölt ki, azokat az ágens végrehajtotta. Az LLM mindegyik után kiértékelte, 0 és 1 között osztályozta az adott oldal aktuális állapotát. Az ágens a legmagasabb értékűeket választotta ki, és mindaddig ismételte a cselekvéseket, amíg végre nem hajtotta a feladatot.

A kutatók két ágenst hasonlítottak össze. Az egyik az ő módszerüket, a másik mást alkalmazott. Száz bevásárló, ötven fórum- és ötven osztályozó feladatot kellett végrehajtaniuk. Előbbi 26,4, utóbbi 18,9 százalékos sikerrátát ért el.

Számítógép-használattal összekombinálva, az új keresési módszerrel az ágensek sokféle desktop feladatot végezhetnek el.

A bejegyzés trackback címe:

https://jelenbolajovobe.blog.hu/api/trackback/id/tr6018799628
süti beállítások módosítása