Számban és méretben egyaránt elképesztő mértékű növekedés tapasztalható az arcfelismerő modellek begyakoroltatásához használt adatsorok, adatbázisok területén. A növekedés negatív hatásaként romlik a minőség, és a gyűjtemények összeállítói, tulajdonosai egyre kevésbé törődnek a személyiségi jogokkal (privacy).
A Mozillánál dolgozó Deborah Raji és az algoritmusok elszámoltathatóságával foglalkozó, az amerikai kongresszus tagjainak mesterségesintelligencia-kérdésekben tanácsokat adó Genevieve Fried négy évtized 130 adatsorát tanulmányozva állapította meg, hogy a növekedéssel párhuzamosan a kutatók lazábban kezelik a mércéket, szabványokat. Így fordulhat elő, hogy az adatsorokban egyre több a gyenge minőségű, homályos fénykép, az elfogult címke, a kiskorúakat ábrázoló, engedély nélkül használt kép.
A tanulmány négy szakaszra osztja az arcképeket tartalmazó adatsorok történetét.
Az 1990 körül lezárult elsőt manuálisan intenzív, lassú számítási módszerek jellemezték. Egy, 1964-ben összegyűjtött adatsorhoz például fizetett modelleket, kontrollált fényeket használtak. Ezeket a sorokat drágán állították elő, és rengeteget dolgoztak rajtuk. A legnagyobb 7900 képet tartalmazott.
A második korszakot lényegében az Egyesült Államok FERET projektje indította el, 1996-ban. 6,5 millió dollárt költöttel el az 1200 személy 14126 képéből álló rendszerre, amelyet fotózásokkal, és az alanyok beleegyezésével hozták létre. A FERET-en és a hasonló adatsorokon gyakorló modellek rengeteget tévedtek a valóságban. A tévedések a képek viszonylag homogén fényviszonyaival és a rajtuk látható személyek hasonló arctartásával magyarázhatók.
Az első webről gyűjtött arckép-adatsor 2007-ben készült el, 13 ezer felcímkézett fotóval, majd egyre több hasonló jött; leggyakrabban a Google-ről, a Flickről, a Yahooról, megfigyelő kamerák felvételeiből válogattak.
A negyedik korszak 2014-ben kezdődött, amikor a Facebook bevezette a DeepFace-t, az első mélytanulást használó, személyeket korábban soha nem látott pontossággal azonosító modellt. Az adatintenzív megközelítéshez kutatók képek tízmillióit gyűjtik össze. Ekkora adatmennyiséggel, a képeken látható összes személy beleegyezése, a címkék elfogulatlanságának garantálása kvázi lehetetlenné vált.
A kutatás tanulsága, hogy az érintettek hozzájárulása nélkül összegyűjtött adatsorok és a bizonytalan algoritmusok rombolják a gépi tanulásba vetett közbizalmat. A szabályozás általában elég homályos, szinte mindenhol vannak jogi korlátozások, amelyeket viszont könnyű kijátszani.