Amikor az 1960-as évek elején mérnökök elkezdték számítógépeket látni tanítani, egyértelműen az emberi látórendszer inspirálta őket.
Azóta sok minden megváltozott.
A gépi látás ötletelésből komoly eredményeket felmutató szakterületté vált. A komputerek egyes vizuális feladatokban, például képek osztályozásában, orvosi képek anomáliáinak felderítésében jobban teljesítenek, mint az ember. A mesterséges ideghálók viszont teljesen másként dolgozzák fel az adatokat, mint a Homo sapiens, és a jövőben még nagyobb lesz a különbség.
Az idegháló inputként kap egy képet, majd több lépéssorozatban feldolgozza. Pixelek, élek, kontúrok után teljes tárgyakat, végül megsaccolja, hogy mit látott.
Az emberi látás nem így működik. A vizuális kortex a retináról érkező hiányos információ alapján alkot élénk és pontos világreprezentációkat.
Egy új elmélet alapján a vizuális kortex a külvilágból jövő adatok részleteit módosító, pontosító visszacsatolási hurkok (feedback loops) sorával éri el ezt. A visszacsatolási folyamatnak lényegében semmi köze a komputerek célirányosan előre haladó képi információfeldolgozásához.
Automatikusan merül fel a kérdés: az emberi látásnak tényleg inspirálnia kell a komputereket?
John Tsotsos, a York Egyetem számítástudományi szakembere szerint több szempontból is egyértelmű nem a válasz. A vizuális kortext korlátozza az anatómia, mert viszonylag kevés idegsejt kapcsolja a külvilághoz, így az ott feldolgozott adatok mennyisége is korlátozott. Egy számítógépnek nincsenek ilyen problémái.
„Kell-e ritkítani bármit is, ha korlátlan számítási kapacitások és memória áll a gép rendelkezésére? Nyilvánvalóan nem” – magyarázza Tsotsos, de rögtön figyelmeztet is: ha csak így gondolkozunk, teljesen figyelmen kívül hagyjuk az emberi látórendszert.
Komputerek masszív adatsorokban lévő összefüggések megtalálásával teljesítenek jól osztályozási feladatokban. Ha különféle szögekből „szkennelnek le” és próbálnak azonosítani tárgyakat, lehet, hogy nem elegendők ezek az összefüggések.
Ilyenkor van szükségük az emberre.
Az emberi látás egyik kulcseleme, hogy ha a vizuális információ első feldolgozása bizonytalan eredményt hoz, az adott tárgyat másodszorra is megnézzük, és általában sikerrel járunk. A komputerek „egyenesen előre” módszeréből tipikusan hiányzik ez az adottság, sokszor ezért szúrnak el könnyű feladatokat is.
Látásunk egy másik, szintén „finomhangolt” tulajdonságával sem rendelkeznek.
Az emberi látórendszer évekig fejlődik, míg éretté nem válik. Tsotsos és munkatársai kimutatták, hogy zsúfolt jelenetek zavaró részleteit csak 17 (mások szerint 20) éves kor után tudjuk kiszűrni.
Egy gépi látórendszer architektúrája meg van határozva, fix, nem fejlődik az idővel, de legalábbis nem úgy, mint az emberé. És ha a tanulómechanizmusok annyira mások, mások lesznek az eredmények is?
Tsotsos szerint a jövőben figyelembe kell venni ezt, mert még a mélytanulás sem kapcsolódik az emberi tanuláshoz, és eljuthatunk egy pontig, amikor a gépi látórendszerek már nem képesek továbbfejlődni.