A hiányzó adatok miatt lehetetlen MI-ket másolni

2018. március 07. - ferenck

A Montreal Egyetem kutatói új beszédfelismerő algoritmust akartak tavaly bemutatni. Előtte össze kívánták hasonlítani egy ismert tudós által fejlesztett, mércének tartott algoritmussal, ám komoly problémával szembesültek: a mérce forráskódjához nem lehetett nyilvánosan hozzáférni.

A kutatók a megjelent leírások alapján újraalkották, az „utánzattal” viszont nem érték el az eredeti teljesítményét. Két hónapig próbálkoztak, de a közelébe sem jutottak.

A Montreal Egyetem esete jelzi, hogy a mesterségesintelligencia-kutatás a korábbi évtizedekben a pszichológiát, orvostudományt és több más területet érintő „utánzási válsággal” néz szembe. Mivel sok kutató nem teszi nyilvánossá a forráskódot, kulcsfontosságú eredmények reprodukálása nehéz vagy lehetetlen, és új konszenzust kellene kidolgozni a kutatási módszerekről és a megjelenési egyezményekről.

Az AAAI (Association for the Advancement of Artificial Intelligence) február közepi rendezvényén a reprodukálhatóság volt a főtéma. Odd Erik Gundersen, a Norvég Tudomány és Technológia Egyetem kutatója érdekes felmérést tett közzé: két korábbi MI-konferencián bemutatott 400 algoritmus mindössze 6 százalékának volt nyilvános a forráskódja, és csak a feléről volt elérhető (de nem részletes) összefoglaló.

Gundersen szerint a szakterület folyamatos fejlődésével, nélkülözhetetlen lesz változtatni ezen a gyakorlaton. A másolás ugyanis elkerülhetetlen a kísérleti eredmények fizikai valóságban történő alkalmazásaihoz. Ha egy algoritmusról nem tudunk másolatot készíteni, akkor azt sem tudjuk, hogy teljesítménye nem a véletlen műve. Ha az MI-t csak a fejlesztők tesztelik, nincs bizonyíték, hogy más komputeren és/vagy más adatokkal is ugyanazok az eredmények születnek.

A másolhatatlanság komoly dilemma, mert nincs garanciánk, hogy a program tényleg azt teszi, amit akarunk tőle.

Gépitanulás-algoritmusoknál különösen súlyos problémáról van szó. Ezek az MI-k gyakorlat alapján tesznek szert ismereteikre, és ha különféle adatokkal tanítjuk őket, teljesen megváltozhatnak a reakcióik is. Kiszámíthatatlanul működhetnek, véletlenszerű eredményeket generálhatnak.

A fejlesztők több okból nem osztják meg a forráskódot: lehet, hogy a program még nincs kész, talán szintén nem nyilvános másik kódra épül, az információ cégek tulajdona, a kutatók félnek a vetélytársaktól stb. Egyes esetekben a kód már meg sincs – elromlott a gép, esetleg ellopták, eltűnt az adattároló, és így tovább.

A szakterület jövőjét illetően viszont kifejezetten rossz a „titkolózás.” A gyors fejlődés hatására a következő években az MI valószínűleg egyre fontosabb szerepet játszik a társadalomban. De hogyan bízzunk meg algoritmusokban, programokban, ha másolatot sem készíthetünk róluk?

A társadalom egy része pedig eleve bizalmatlan a mesterséges intelligenciával szemben…