Virágzó és gyorsan fejlődő piac szintetikus adatsorok generálása gépitanuló-rendszerek gyakoroltatásához. Az érintett startupok (AI.Reverie, GenRocket, Hazy, Mostly AI stb.) külön figyelmet szentelnek a forrásadatok előítélet-mentességére, hogy a rajtuk trenírozott algoritmusok ne legyenek részrehajlók. Természetesen nemcsak figyelnek, hanem módszereket is dolgoznak ki rá.
Ha nem sikerül megoldaniuk a problémát, a szintetikus adatsorok „megöröklik” a fizikai valóságból származó adatok hiányosságait, elfogultságát. Azokét az adatokét, amelyeken alapulnak a későbbi gépitanulás-modellek.
De miért van szükség szintetikus adatsorokra?
Elsősorban azért, mert nagyon jó minőségű gyakorló adatsorok létrehozását a magas költségek miatt sok cég nem engedheti meg magának, másrészt pedig, azokban az esetekben, amikor a fizikai valóság adatai nem állnak rendelkezésre, ez az egyetlen lehetőség.
De a szintetikus adatsorok sajnos nemcsak megőrzik, hanem fel is erősíthetik az eredetiek részrehajlását, rengeteget torzíthatnak, például növelhetik a társadalmi előítéleteket. A fejlesztők nagyon vigyáznak a „valóságtorzulásokra”: ne legyenek jelentősek, még inkább: egyáltalán ne forduljanak elő, és igyekeznek minimalizálni a kockázatokat, hogy a begyakoroltatott modell ne eredményezzen teljesen félrevezető, igazságtalan outputokat.
A Mostly AI friss kísérletében az 1994-es amerikai népszámlálás adataiból kiindulva generáltak adatsort, amelyben az évi 50 ezer dollárnál többet kereső férfiak 20 százalékkal többen voltak, mint a nők. Az egyenletesebb eloszlás érdekében a cég beépített a rendszerbe egy generátort, amely a magas jövedelmű férfiak és nők arányának jelentős felbillenésekor büntetőmechanizmusokat alkalmazott. A technikával 2 százalékosra csökkentették a különbséget.
A startup a visszaeső bűnözésre vonatkozó, hírhedtté vált COMPAS adatsor alapján is generált szintetikus adatsort, bemutatva, hogy az abból kiinduló modelleknél feketék esetében aránytalanul magasabb, fehéreknél aránytalanul alacsonyabb az ismételt bűnelkövetés valószínűsége. A kezdeti adatsorral 24 százalék volt a különbség, végül korrekciós technikákkal elérték, hogy 2 százalékra csökkenjen.
Az adatsorok elsődleges rendeltetése, hogy elfogulatlan outputot eredményezzenek – magyarázzák a fejlesztők.