A mesterségesintelligencia-modelleket tesztelő Artificial Analysis szolgáltatás, az LMSys nagy nyelvmodelleket versenyeztető Chatbot Arénájához hasonlóan, „szövegből kép” ranglistát vezetett be. Az imgsys és a Gen-AI Arena szintén képgenerálással foglalkozik, de ott csak nyílt forrású modellek mérettetnek meg, így a népszerű Midjourney és a DALL-E kimaradt.
A kiértékelés alapja az egymás elleni, szemtől szemben elért eredmények. A széleskörű nyilvánosság a zsűri.
A Midjourney v6 eddig több mint egy tucat másik modell felett diadalmaskodott: outputjai jobban visszaadják a bemenő promptokat, sebességben viszont elmarad a versenytársak mögött.
Az Artificial Analysis random kiválaszt két modellt, és egyedi promptot ad meg nekik, utána bemutatja a promptot és a képeket. A felhasználók választhatnak. A rangsorolás egymáshoz viszonyítva pontozza a versenyzőket.
A modelleket ipari jelentőség és nem specifikált teljesítménytesztek alapján válogatja ki. A legnépszerűbbek, legjobban teljesítők – különösen az alkalmazásprogramozói felületen (API) keresztül elérhetők – azonosítása és összehasonlítása a cél. A Midjourney kivétel, nincs API-ja.
Eddig csak tizennégy modell felelt meg a küszöbértékeknek, de az Artificial Analysis módosít a kritériumokon, mert a jövőben többet szeretne.
A harmincnál többször szavazók saját szavazataikon alapuló személyes ranglistát is láthatnak.
A Szövegből Kép Arénától elválasztva, az Artificial Analysis a modellek képgenerálási és feltöltési idejét szintén összehasonlítja. Mindegyiket napi négyszer promptolják, és tizennégy napon keresztül átlagolják az outputok elkészülési idejét. Ezer kép generálásának az árát is követi.
A Midjourney v6 vezet, a Stable Diffusion 3 a második, a DALL-E 3 HD a harmadik, a nyílt forrású Playground v2.5 a negyedik. A Midjourney v6 ezer képes költsége 66, a Stable Diffusion 3-é 65, a DALL-E 3 HD-é 80, a Playground v2.5-é 5,13 dollár.