Néhány éve inkább csak elméleti kérdés volt, hogy a képgeneráló technikák gyakorlóadatai tükröznek, sőt felerősítenek sztereotípiákat elfogultságokat. A DALL-E-2, a Midjourney, a Stable Diffusion és más mesterségesintelligencia-alkalmazások térhódításával, széleskörű használatukkal a film-, a játékiparban, a marketingben, a bűnüldözésben és más területeken viszont nagyon is valós probléma lett. A félelem beigazolódott.
A homályos képeket „kiélesítő” Pulse 2020-ben Barack Obama exelnök arcát fehérként jelenítette meg. Ugyanabban az évben az ImageNet képadatbázisról több tanulmány megállapította, hogy sok kép szexista, rasszista, és gyűlöletre utaló címkék is szerepelnek benne. A frissítésnél eltüntették a kétes címkéket, és változatosabbá tették a gyűjteményt.
Márciusban a Lipcsei Egyetem és a Hugging Face közös anyagban mutatta ki, hogy a DALL-E-2 és a Stable Diffusion az amerikai munkaerőben túlreprezentálja a férfiakat.
A Stable Diffusion társadalmilag megbecsült állásokról szóló képein alig van nő, míg az alacsony keresetűeket és a bűnözőket ábrázolókon túl sok a színesbőrű személy – derült ki több kutatásból.
A modellt előzetesen a webről összeszedett, ötmilliárdnál több szöveg-kép páron gyakoroltatták. A kutatók promptjai (szöveges utasításai) alapján tizennégy foglalkozásról kellett háromszáz képet generálnia. A tizennégyből héthez (ügyvéd, orvos, mérnök stb.) hagyományosan a „jól fizetett”, a másik héthez (portás, gyorséttermi alkalmazott, tanár stb.) pedig a „rosszul fizetett” sztereotípiát társítjuk. Három negatív kulcsszót (rab, drogkereskedő, terrorista) megadva, szintén készíttettek képeket.
A bőrszínt dermatológusok által használt hat kategóriára osztották; háromba világosabb, a másik háromba sötétebb bőrű személyek tartoztak. A gendernél három kategóriával (férfi, nő, nem egyértelmű) dolgoztak. Az eredményeket az USA Munkastatisztikai Hivatalának a bőrszín és a gender szerinti megoszlást részletező adataival hasonlították össze. Kiderült, hogy a Stable Diffusion képei a társadalmi sztereotípiákat, és nem a valódi adatokat tükrözik vissza.
Sokkal több nő szerepelt az alacsonyan fizetett állásokat (pénztárosokat, mosogatókat, házvezetőket, szociális munkásokat) ábrázoló képeken, mint a valóságban. Az orvos-képeknek viszont csak hét, az ügyvéd-képeknek három százalékán láthatunk nőket, míg a valóságban az előbbiek 39, az utóbbiak 34 százaléka nő. A mérnököknél még rosszabb volt a helyzet: a Stable Diffusion mérnök-képei közül mindössze egyen látható nő, a realitás viszont 14 százalék lenne.
A rabok több mint nyolcvan százaléka, a drogkereskedők több mint fele sötétebb bőrű a Stable Diffusion képein, míg a terroristákhoz gyakran társított muszlim-sztereotípiákat: szakállat, fejfedőt. A szerzők ugyanakkor azt is megjegyezték, hogy a hat bőrszín-kategória nem kapcsolódik etnikumokhoz, tényleges bőrszín szerinti csoportokhoz.