Számítástudományi szakemberek évtizedek óta mindenféle bonyolult mechanizmust és technológiát terveznek, fejlesztenek, amelyekkel az általános, azaz az emberével azonos szintű mesterséges intelligenciát próbálják megvalósítani. Az intelligens élethez társítható jelenségeket, például a látást, a nyelvet, érvelést és következtetést, motorikus képességeket stb. igyekeznek gépekbe másolni.
Az így létrejött MI-rendszerek korlátozott környezetben hatékonyan oldanak meg speciális feladatokat, viszont az állatokra és az emberre jellemző általános intelligenciától egyelőre még elég távol vannak.
A Google-hoz tartozó és a szakterületi fejlesztések egyik zászlóshajójának számító londoni DeepMind kutatói szerint az intelligencia és hozzá társított képességek nem bonyolult feladatok megformálásával és megoldásával, hanem a jutalommaximalizálás egyszerű, de hatékony elvéből alakulnak ki.
A természet így, és nem komplex organizmusok felülről lefelé (top-down) történő tervezésével működik. A természetes kiválasztódással és a véletlenszerű változatokkal az evolúció évmilliárdjai során fejlődtek ki a túlélésre és szaporodásra alkalmas életformák. A környezet viszonyait és kihívásait jobban kezelők sikeresnek bizonyultak, a többiek elpusztultak.
A gépi értelemnek is ilyen közegekben kellene túlélnie. A jutalom maximalizálásával mért sikerhez az intelligenciához társítható kifinomult képességek kellenek, a maximalizálás célja magában foglalja az intelligencia sok, vagy akár összes célját – állítják a kutatók.
A fejlesztői körökben gyakran túlhájpolt megerősítéses tanulás közben az algoritmus az előre programozott jutalmat keresve, sajátítja el a feladat megoldási módját, és pontosan ezért, ez a technika számolhatja fel a speciális és az általános MI közötti határokat. Nem kell hozzá új technológia, könnyen elképzelhető, hogy máris minden adott, mindent kifejlesztettek hozzá.
A DeepMind azokhoz a kisebbségben lévő szakemberekhez csatlakozott, akik vitatják a többségi véleményt, mely szerint nincsenek még meg az általános MI technikai feltételei, technológiai innovációk sora kell hozzá. Ha a jutalomra összpontosító magatartás a természetes evolúcióban „bizonyított” már, miért lenne másként a mesterségesben? – érvelnek.
Érveik több feltételezésen alapulnak, például hogy a próba-hiba (trial-and-error) módszerrel működő megerősítéses tanulás algoritmusok valamilyen hardverarchitektúrában képesek „valódi” intelligenciává válni. Vitatható, de nagyon érdekes álláspont.