Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

Az adatcímkézők a mesterségesintelligencia-forradalom elfelejtett hősei

2023. július 10. - ferenck

Fei-Fei Li, a Stanford Egyetem ismert mesterségesintelligencia-kutatója 2007-ben, még a Princeton Egyetemen – a közösségi ötletbörzén (crowdsourcing) alapuló adatannotálás úttörőjeként –, képfelismerő betanításához, a képek számát tízezrekről milliókra növelte. A munkához az Amazon Mechanikus Török platformja többezer dolgozójának szolgáltatását vették igénybe.

Így született meg a gépi látás kulcsfontosságú adatsora, az ImageNet.

adatcimkezes0.jpg

Csúcsteljesítményű mesterségesintelligencia-rendszerek fejlesztése nagymértékben függ a pontosan annotált adatoktól. A gazdaságos címkézés a szolgáltatókat a tevékenység automatizálására ösztönzi, a dolgozók pedig lassan lemorzsolódnak. A címkézést kevésbé tekintik hivatásnak, sokkal inkább alkalmi állásnak.

A szolgáltatók (Centaur Labs, Remotasks, Surge AI stb.) automatizált rendszerekkel kezelik világszerte a munkaerőt. A dolgozók képesítési vizsgákon, képzésen, teljesítmény-ellenőrzésen vesznek részt olyan feladatok elvégzéséhez, mint határoló keretek rajzolása, közösségi médiumokban kifejezett érzelmek osztályozása, videoklipek értékelése a szexuális tartalom alapján, hitelkártya-tranzakciók tanulmányozása, chatbotok válaszának pontozása, különféle arckifejezésű szelfik feltöltése stb.

A bérezésben nagyok az eltérések: Kenyában egy dollár per óra, az USA-ban huszonöt dollár vagy több is lehet ugyanannyi időre. Ha egy feladathoz speciális ismeretek szükségesek, és fárasztó is, az illető akár háromszáz dollárt is kaphat érte.

adatcimkezes.jpg

Az ügyfelek üzleti titkait megőrzendő, a munkáltatók az ügyfél, az alkalmazás vagy a funkció azonosítása nélkül adnak ki megbízásokat. A dolgozók nem ismerik az általuk készített címkék rendeltetését, és óva intik őket, hogy a munkájukról bárkinek is beszéljenek.

A feladatok sokszor nem egyértelműek. Például ha ember által viselt ruhát kell felcímkézni, próbababán vagy rajzfilmben látottak kiesnek. De mi van, ha tükörképet látnak, vagy mondjuk, a páncél öltözéknek számít, vagy sem?

Mivel a fejlesztők folyamatosan iterálják modelljeiket, a címkézés szempontjai változnak, és a dolgozóknak az egyre több kivételről sem szabad megfeledkezniük.

A munkabeosztás sporadikus, kiszámíthatatlan. Azt sem lehet tudni, mikor és milyen lesz, meddig tart a következő megbízás, mennyit fizetnek érte. Ennyi bizonytalanság demoralizál.

Sok adatcímkéző titkos WhatsApp csoportokban információk megosztásával, tanácsok kérésével vezeti le a stresszt. Együtt tanulnak meg trükköket, például hogyan használjanak MI-modelleket munkájuk elvégzésére. Tartózkodási helyüket titkolva, proxi szervereken kapcsolódnak, több álnéven tartanak fenn felhasználói fiókokat, máskülönben könnyen elveszítenék alkalmi munkáikat.

Pedig az adatközpontú fejlesztések miatt az ügyes címkézők felértékelődnek, és ha MI-kutatók viszonylag kevés példával akarnak jól működő rendszereket építeni, a kiválasztás és az annotálás kulcsfontosságúvá válik.

A bejegyzés trackback címe:

https://jelenbolajovobe.blog.hu/api/trackback/id/tr8718162602
süti beállítások módosítása