A mesterségesintelligencia-modellek egyre több vitát kavarnak, és mind gyakrabban hozzák fel ellenük sajtóanyagok, cikkek, irodalmi munkák jogtalan felhasználását. Ezeken az anyagokon trenírozzák őket, minél több adatot használ egy nagy nyelvmodell (LLM), annál hatékonyabb és pontosabb lesz, annál kevesebb hibát vét.
A New York Times (NYT) december utolsó hetében a szerzői jog megsértése miatt beperelte az OpenAI-t és a Microsoftot.
Két okra hivatkoztak. Egyrészt, az OpenAI és a Microsoft a szerzői jog által védett többmillió NYT-cikket használt modelljei betanításához. Másrészt, példákkal mutatták be, ahogy az OpenAI modelljei szinte szó szerint „visszaböfögték” NYT-cikkek tartalmát.
A kiadók és a sajtó aggálya érthető, mert félnek, hogy a generatív mesterséges intelligencia térnyerése negatív hatással lesz üzleti tevékenységükre (bár közülük is egyre többen használják ezeket a technológiákat), ugyanakkor az OpenAI és a Microsoft attitűdje is elfogadható, ráadásul a NYT érvelése sem világos, nem derül ki egyértelműen, mi is történt, mi a tényleges kár.
A két pont közötti összefüggés sem teljesen érthető, és így azt sem lehet tudni, hogy a NYT-cikkeken történt trenírozással hogyan jutott el a ChatGPT anyagok szó szerinti visszaadásáig.
A „visszaböfögések” zömét valószínűleg nem vagy nemcsak a modell trenírozás közbeni súlyozásával, hanem egy kiterjesztett visszakeresési technikával (RAG) érték el. A ChatGPT a webet releváns információ után böngészve, felhasználói promptra tölthetett le válaszként teljes NYT-cikket.
A mai LLM-eket csomó jogvédett szövegen gyakoroltatják, és a társadalom számára – Andrew Ng gépilátás-szakértő szerint – a leghasznosabb az lenne, ha anyagok ilyetén felhasználásához nem kellene külön engedély, mint ahogy ahhoz sem kell, ha a weben olvasunk valamit, aztán valamilyen szinten hasznosítjuk új ismereteinket.
De ebből még nem következik egyenesen, hogy a ChatGPT „visszaböfögi” szó szerint az olvasmányokat. Milyen speciális technikai mechanizmus kell hozzá?
A bírósági ítélet mindenesetre precedens-értékű lehet, és a soron következő, (várhatóan) gyakori pereknél sokszor hivatkozhatnak majd rá.