Hátborzongató emberutánzatokkal köszönt be a gépi tanulás új korszaka?

2021. június 14. - ferenck

A négy meg nem nevezett amerikai nagyvállalatnak dolgozó izraeli Datagen és más cégek többezer szimulált embert, digitális kamulényt készítettek már. Egyikük sem játék-avatár, nem animált karakter filmekben.

Ezekkel a szintetikus adatokkal fejlesztőik a gépitanulás-algoritmusok megnőtt étvágyát akarják kielégíteni, valós adatok gyűjtésének idő- és pénzigényes folyamatát igyekeznek kiváltani velük, de legalábbis olcsóbb alternatívát kínálnak.

A legnagyobb vetélytárs, a San Francisco székhelyű Synthesis AI szintén kívánság szerinti (on-demand) digitális embereket ajánl az ügyfeleknek. Az iparág fellendülőben van, egyre több vállalat generál változatos területeken (média, autóipar, pénzügyek, biztosítás, egészségügy stb.) felhasználásra kerülő szintetikus adatokat.

A Datagen első lépésben húsvér embereket szkennel le. Munkakapcsolatban áll azokkal az eladókkal, akik óriási testszkennerekkel személyekről rögzítenek adatokat. Az illetők beleegyezésével teszik ezt, fizetnek nekik érte. A gépek az írisztől a bőrtextúráig, az ujjhajlatoktól a fülekig, a test legapróbb részleteit is megörökítik.

A nyers adatok feldolgozása a következő lépés. Algoritmusok többször átmennek rajtuk, míg el nem készül az adott személy testének, arcának, szemeinek, kezének stb. 3D-s megjelenítése, miközben torzítanak is rajtuk annyit, hogy ne lehessen felismerni őket.

A szintetikus adatoktól sokáig ódzkodtak, manapság viszont többek szerint ez a megoldás, mert nem olyan rendezetlenek, vagy elfogultak, mint a valódiak, ráadásul az egyre szigorúbb személyiségi jogi (privacy) kritériumokat sem kell figyelembe venni hozzájuk. „Szűz” terület, változatosabb adatsorok alakíthatók ki belőlük.

Különböző életkorú, fizikumú, etnikai összetételű lakossághoz tökéletesen felcímkézett fejek gyárthatók le, amelyekből a mostaniakkal összehasonlítva, elfogulatlan adatsorok generálhatók, és a rajtuk gyakorló arcfelismerő rendszerek pontosabb munkát végeznek a jövőben. Még kismennyiségű, de jól felcímkézett adattal is jelentős mértékben javítható egy rendszer teljesítménye, lényegesen jobb eredményt ér el, mint a tízszer annyi, de megtisztítatlan adatot használó fejlettebb algoritmusok.

Csakhogy a szintetikus adatoknak is megvannak a maguk korlátai. Ha például nem képesek visszaadni a valóságot, a velük dolgozó mesterséges intelligenciák pocsék munkát végezhetnek, és egyelőre az sem bizonyított, hogy az ezekkel az adatokkal működő MI-rendszerek elfogulatlanabbak lennének.