Fizetni kell a gyakorlóadatokért?

2023. május 02. - ferenck

Február óta a Twitter havi 42 ezer dollárt kér alkalmazásprogramozói felületének (API) használatáért. Adatokban dúskáló más platformok szintén fizetőssé tették vagy bezárták az API-jukat. Egyértelmű, miért: mesterségesintelligencia-fejlesztők a webről szedik össze a modellek gyakoroltatásához szükséges adatokat.

Régóta ez a bevett – ingyenes – gyakorlat, működött is, bár az utóbbi hónapokban egyre több a pereskedés. Hírmagazin-kiadók egy csoportja pár hete ki is jelentette, hogy az MI-k szövegeiken történő gyakoroltatása megsérti a szellemi tulajdonjogokat.

A Reddit beszélgető platform és a Stack Overflow kérdés-felelet honlap a napokban közölte, hogy tervet dolgoztak ki adataik nagy nyelvmodellekkel (large language models, LLM) szembeni védelmére. Jelenleg mindkét weboldal API-kat kínál posztok, beszélgetések tömeges gyűjtésére, de hamarosan változik a helyzet.

A Reddit frissítette szabályzatát, és mostantól megakadályozhatja az LLM-ek számára történő, engedély nélküli adatgyűjtést. Pénzt kérnek az API-hoz való hozzáférésért; egyetlen kivétel van: ha a Reddit-felhasználók hasznot húznak az adatok segítségével fejlesztett alkalmazásokból.

A Stack Overflow vezetősége elmondta, hogy az oldalon lévő adatok gépi tanulásra való használata ellentétes a szabályzatukkal. A fejlesztőknek egyértelműen fel kellene tüntetniük az adatok forrását, amit nem tesznek meg. A cég az oldal fizetőssé tételét tervezi.

Az LLM-eket adataikkal működtető közösségi oldalaknak jár az anyagi kompenzáció. Eddig ugyan nem volt, de változik a helyzet, ráadásul a pénz az adott oldalak továbbfejlesztésére, felhasználóbarátabbá tételére is elkölthető, a Stack Overflow pont ezt tervezi.

A közhiedelemmel ellentétben az adatoknak általában van ára, sőt, egyes korpuszok értéke folyamatosan nő. A beszélgető oldalak, mint a Reddit és a Stack Overflow gyűjteményei kulcsfontosságúak nyelvmodellek trenírozásához, kódíráshoz stb.

A meglévő adatsorok és modellek törvény előtti státusza bizonytalan, a jövőbeli hozzáférés jogi és kereskedelmi megállapodások tárgya lehet. Egyelőre még nem folytattak ezirányú megbeszéléseket, holott teljesen érthető, ha az akaratlanul is besegítő Reddit és társai is szeretnének profitálni az LLM-áttörésből. Viszont komoly problémát okozhat, ha csak a nagyvállalatok tudnak fizetni, és a kisebb fejlesztők számára ellehetetlenül az adatgyűjtés, mert a fejlesztés a privilegizált cégek szűk csoportjának a kezében összpontosulhat.