Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Milyen adatsorokon tanulnak az arcfelismerő rendszerek?

2021. március 01. - ferenck

Számban és méretben egyaránt elképesztő mértékű növekedés tapasztalható az arcfelismerő modellek begyakoroltatásához használt adatsorok, adatbázisok területén. A növekedés negatív hatásaként romlik a minőség, és a gyűjtemények összeállítói, tulajdonosai egyre kevésbé törődnek a személyiségi jogokkal (privacy).

A Mozillánál dolgozó Deborah Raji és az algoritmusok elszámoltathatóságával foglalkozó, az amerikai kongresszus tagjainak mesterségesintelligencia-kérdésekben tanácsokat adó Genevieve Fried négy évtized 130 adatsorát tanulmányozva állapította meg, hogy a növekedéssel párhuzamosan a kutatók lazábban kezelik a mércéket, szabványokat. Így fordulhat elő, hogy az adatsorokban egyre több a gyenge minőségű, homályos fénykép, az elfogult címke, a kiskorúakat ábrázoló, engedély nélkül használt kép.

faces0.jpg

A tanulmány négy szakaszra osztja az arcképeket tartalmazó adatsorok történetét.

Az 1990 körül lezárult elsőt manuálisan intenzív, lassú számítási módszerek jellemezték. Egy, 1964-ben összegyűjtött adatsorhoz például fizetett modelleket, kontrollált fényeket használtak. Ezeket a sorokat drágán állították elő, és rengeteget dolgoztak rajtuk. A legnagyobb 7900 képet tartalmazott.

faces1.jpg

A második korszakot lényegében az Egyesült Államok FERET projektje indította el, 1996-ban. 6,5 millió dollárt költöttel el az 1200 személy 14126 képéből álló rendszerre, amelyet fotózásokkal, és az alanyok beleegyezésével hozták létre. A FERET-en és a hasonló adatsorokon gyakorló modellek rengeteget tévedtek a valóságban. A tévedések a képek viszonylag homogén fényviszonyaival és a rajtuk látható személyek hasonló arctartásával magyarázhatók.

Az első webről gyűjtött arckép-adatsor 2007-ben készült el, 13 ezer felcímkézett fotóval, majd egyre több hasonló jött; leggyakrabban a Google-ről, a Flickről, a Yahooról, megfigyelő kamerák felvételeiből válogattak.

faces.jpg

A negyedik korszak 2014-ben kezdődött, amikor a Facebook bevezette a DeepFace-t, az első mélytanulást használó, személyeket korábban soha nem látott pontossággal azonosító modellt. Az adatintenzív megközelítéshez kutatók képek tízmillióit gyűjtik össze. Ekkora adatmennyiséggel, a képeken látható összes személy beleegyezése, a címkék elfogulatlanságának garantálása kvázi lehetetlenné vált.

A kutatás tanulsága, hogy az érintettek hozzájárulása nélkül összegyűjtött adatsorok és a bizonytalan algoritmusok rombolják a gépi tanulásba vetett közbizalmat. A szabályozás általában elég homályos, szinte mindenhol vannak jogi korlátozások, amelyeket viszont könnyű kijátszani.

A bejegyzés trackback címe:

https://jelenbolajovobe.blog.hu/api/trackback/id/tr3016442530
süti beállítások módosítása