Több kutatócsoport próbálkozik a gépi beszédfelismerés és szövegértés biztonságosabbá tételével, hogy mesterséges intelligenciákat ne tévesszenek meg például az emberi fül számára jóindulatú, de rejtett, például egy eszköz virtuális asszisztensen keresztüli meghackelésére vonatkozó utasításokat mégis tartalmazó üzenetek.
Az MI fejlődését a mélytanulás (deep learning) gyorsította fel, az algoritmusok működését viszont még mi sem értjük teljesen, és kiszámíthatatlanságuk miatt vissza lehet élni velük.
Az MI nem biztos, hogy ugyanazokat a mintázatokat használja például képek felismerésére, mint az ember. Ha valamit minimálisan megváltoztatunk rajtuk, mi ugyanannak látjuk, de egy algoritmus másként értelmezi, és néhány vonal miatt stoptáblát sebességkorlátozásnak néz stb.
Ilyen ellenséges példák (adversarial examples) audioanyagokba is becsempészhetők.
Bo Li, az Urbana-Champaign Illinois Egyetem kutatója és munkatársai teljes audioanyagot, majd annak csak egy részét átíró algoritmust fejlesztettek. Ha a részlet nem kapcsolódik szorosan az egészhez, elképzelhető, hogy az anyagot megtrükközték, és a program figyelmeztetést ad le.
A kutatók algoritmusukkal több támadásfajtánál kimutatták a beavatkozást, és amikor a támadó még ismerte is a védelmi rendszert, sokkal tovább tartott a kivitelezés. Maga Li sem értette teljesen, miért működik annyira jól az MI. Egyik kollégája elmondta, hogy az ellenséges példák elszaporodásával, a Google Asszisztensnek, az Amazon Alexájának és az Apple Sirijének is hasonló védekezésre kell felkészülnie.
Nicholas Carlini a Google Brain kutatója szerint a rosszindulatú támadások és a rájuk adott reakciók folyamatos macska-egérharc, mert minden új védelmi mechanizmusra hamar előállnak azt megkerülő, kijátszó opciókkal.
Mivel egy kép vagy hang jóval könnyebben megtrükközhető, a szövegeket eddig viszonylag megkímélték hasonló támadásoktól. Szavak nehezebben manipulálhatók, bár szinonimák használatával megtéveszthető egy MI, és egy spam-et máris biztonságos e-mailnek minősít stb.
Az összes szó összes szinonimájának tesztelése a végtelenig eltarthat, így az Austini Texas Egyetem kutatói először kiderítették, hogy a szövegosztályozó melyik szavaktól függ leginkább, amikor az anyag mögötti rosszindulatú szándékról vagy annak hiányáról kell döntenie. E szavaknál próbálkoztak néhány szinonimával.
Egy korábbi támadással az MI pontosságát 90 százalékról 23-ra csökkentették hírek, 38-ra e-mailek, 29-re Yelp-értékelések (közösségi oldal, étterem-ismertetésekkel stb.) esetében. A texasi kutatók 17, 31 és 30 százalékos eredményt értek el, pedig csak pár szón módosítottak (például „it is” helyett „it’s” vagy „those” helyett „these” stb.).
Kutatók általában közkinccsé teszik ezeket a trükköket. Az OpenAI februárban nem hozta nyilvánosságra kamuhíreket generáló algoritmusát, amiért sokan támadták.
„Ha a támadást nyilvánossá tesszük, a védekezés is nyilvánossá válik” – véli az Austini Texas Egyetem fejlesztését vezető Alexandros Dimakis.