Ha videók, képek, hanganyagok, szövegek stb. digitális vízjelekkel védhetők, miért ne lehetne ugyanezt megtenni mesterségesintelligencia-modellekkel? A vízjelek szinte észrevétlenül jelzik a tulajdonost, elvileg megakadályozzák szellemi jogok eltulajdonítását, és azt is, hogy támadók kárt okozzanak az integritásukban.
Az IBM szabadalmi oltalomra beadott folyamatot dolgozott ki a probléma megoldására.
Egyedi azonosítókat ágyaznak ideghálókba.
„Először most tudjuk masszívan bizonyítani, ha valaki ellopott egy modellt. Mély ideghálókhoz (DNN) nagyteljesítményű számítógépek, idegháló-szakértelem és gyakorlóadatok kellenek, és csak ezek után jöhet a lehető legpontosabb modell. Ezeket a modelleket nehéz felépíteni, és gyakran próbálják ellopni őket. Hackerek minden értékeset, köztük tanulórendszereket is megtámadnak” – magyarázza Marc Ph. Stoecklin, az IBM kognitív biztonsági intelligenciával foglalkozó kutatásfejlesztéseinek vezetőmenedzsere.
Nem az IBM az első, előttük mások is próbálkoztak már mélytanulás-modellek vízjelezésével.
A japán KDDI kutatócég és a Nemzeti Informatikai Intézet 2017 áprilisában megjelent tanulmánya ugyanerről, vízjelek DNN-be (deep neural network) ágyazásáról szólt. Az ő és mások elképzeléseinek kivitelezéséhez viszont ismerniük kellett az ellopott modellek paramétereit. Könnyen elképzelhetjük, hogy a távirányított és plagizált szolgáltatások mennyire nyilvánosak, és mennyire problémás fontos adatokat beszerezni róluk…
Az IBM módszere abban egyedi, hogy API (alkalmazásprogramozási felület) lekérdezésekkel hitelesíthető az idegháló-szolgáltatások tulajdonjoga. Így könnyebben megakadályozható például önvezető autók eltérítése, amely stop táblák negligálásához és hasonló esetekhez vezethet.
A beágyazás, a vízjel tanuló modellre alkalmazása a kétlépéses folyamat első, detektálása, azaz kivonatolása és a tulajdonjog bizonyítása a második szakasza.
A kutatók három algoritmust fejlesztettek három egymáshoz kacsolódó vízjelfajta generálásához. Az elsőbe „értelmes tartalmat” és az eredeti tanulóanyagot, a másodikba irreleváns adatmintákat, a harmadikba zajt ágyaztak be. Miután akármelyiket egy ideghálóra alkalmazták, a megcélzott címkéhez kapcsolódó modelladatok eredményeként elkészült a vízjegy.
A három beágyazó algoritmust kézírásos számjegy-felismerő, illetve tárgyosztályozó adatsor 10-10 ezer képén tesztelték.
100 százalékosan működött.
Az IBM figyelmeztet: a módszer offline modellekkel nem működik, bár ezeket a modelleket jóval ritkábban támadják. Másrészt, nagyon speciális esetekben nem nyújt védelmet.