Sakk, dáma, go, póker, és még sorolhatnánk, de a lényeg: a mesterséges intelligencia számos területen elérte vagy felül is múlta az emberi szintű teljesítményt (human-level performance, HLP). Más területeken, például a beszédfelismerésben vagy a diagnosztikában hosszú ideje szintén ez az akadémiai kutatások célja.
Amikor egy modell eléri a HLP-t, az adott terület mérföldkőhöz jut el, a tudományos és a médiavilág méltán ünnepel. De szükséges-e, hogy az MI minden esetben eljusson idáig?
A gépi tanulás egyik abszolút szaktekintélye, az amerikai Andrew Ng szerint, például a gyártórendszereknél nem mindig praktikus.
Az automatizált vizuális ellenőrzőrendszerek többek között futószalagon készült termékek fényképeit nézve, osztályozzák a hibákat: karcolásokat, horpadásokat stb. Csakhogy a humán szakértők nem mindig értenek egyet velük, és egymással sem. „Ez tényleg horpadás?” – tehetik fel a kérdést. És ha ők is többféleképpen látják, akkor mit csináljon egy MI?
Ng egy korábbi kutatását hozza fel példaként. Amikor beszédfelismerő rendszereket fejlesztett, hasonló problémával szembesült. Egyes hanganyagokban vagy a beszélő motyogott, vagy a háttérzaj miatt nem hallatszott, amit mondott. Hiába hallgatjuk meg többször az ilyen klipeket, senki nem tudja bizonyossággal átírni őket. De az átiratok még a tisztán hallható, például hangulatokat leíró vagy hangutánzó szavaknál, kifejezéseknél is lehetnek inkonzisztensek.
Ha egy ember ugyanazt a beszédet többféleképpen írja le, akkor mit tegyen egy beszédfelismerő rendszer, hogyan kezelje az opciókat?
Akadémiai kutatásokban az MI-ket gyakran tesztelik úgynevezett „szintjel adatsorokkal” (benchmark dataset), sok címkével, köztük természetesen „zajos” címkékkel is. Ha az ember 90 százalékot ér el, az MI pedig 91-et, rögtön a HLP meghaladását ünnepeljük.
Ng szerint a mindennapokban használt rendszerek jelentős részénél ez a koncepció csak alkalmanként hasznos. Például ha egy röntgenes diagnosztikát végző MI túlszárnyalja a radiológusokat, teljesítménye tényleg bizonyíték arra, hogy a kórházakban is bevezessék?
Aligha, mert az egészségügyi személyzet sokkal árnyaltabban kezeli a kérdést, nemcsak HLP-ben, hanem biztonságban, az esetleges elfogultság kiszűrésében, ritka esetek kezelésében és más tényezőkben is gondolkozik, ráadásul ezekben egy MI aligha érné el az emberi szintet. Tesztsoroknál teljesíthet jobban, de ez nem jelenti azt, hogy valódi élethelyzetekben is felülmúlja az embert.
Ng javaslata: a HLP-t nem meghaladni, hanem egyre magasabb szintre kell emelni.