Az eseményekre vonatkozó absztrakt következtetés képessége az emberi intelligencia egyik meghatározó jegye. Ösztönösen tudjuk például, hogy a sírás és az írás kommunikációt jelent, vagy a fáról leeső panda és a földet érő repülőgép variációk a leszállásra.
Számítógépeknek általában meggyűlik a bajuk a valóság absztrakt kategóriákba rendezésével. Az utóbbi években a világ, tárgyak, állatok és cselekvések kapcsolatára vonatkozó szerkezeti információkkal ellátott szavakon és képeken gyakorló gépitanulás-modelljei viszont már előrelépést jelentenek.
Az MIT (Massachusetts Institute of Technology), a Columbia Egyetem és az IBM kutatói hibrid nyelv-látás rendszerrel kísérleteznek. A modell videókon látható dinamikus eseménysorokat hasonlít össze, állít ellentétbe egymással, és igyekszik megfejteni az azokat összekötő magasabb szintű fogalmakat.
Két vizuális kategóriában ugyanolyan jól, vagy jobban teljesített, mint az ember: mozgóképsorozatok kiegészítésében, illetve nem odaillő jelenet kiszűrésében. Például ugató kutyához és a kutyája mellett ordító férfihoz öt videóból választva, a síró csecsemőt társította.
Egy absztrakt eseményeket felismerő modell pontosabb, logikusabb előrejelzéseket tesz, és hasznosabb a döntéshozásban.
Miután a mély ideghálók tárgy- és cselekvés-felismerés szakértővé váltak, logikus következő lépés volt a látottak absztrahálása. Az egyik megközelítésben a mintakapcsolást és a szimbolikus programok logikáját hozták közös nevezőre, jelen kutatáshoz viszont egy másikat választottak: a modell a szavak jelentésébe beágyazott kapcsolatok, szöveges és vizuális adatbázisokból megismert kontextuális információk alapján következtet a látványra.
A „futás”, „súlyemelés”, „bokszolás” szavak például közelebb állnak a „gyakorlás” fogalmához, mint a „vezetéshez.” Az MI ilyen kontextuális infókat sajátított el. Az MIT és a DeepMind egy-egy adatsorán térképezte fel minden egyes ottani cselekvésosztály kapcsolatrendszerét: például a „szoborkészítés”, „faragás”, „festés” a „művészi tevékenység” fogalomba tartoznak. Mihelyst a modell felismer egy ilyen cselekvést, mondjuk a „szoborkészítést”, az adatsorban lévő hasonló tevékenységeket is képes kiválasztani.
Az absztrakt osztályok relációs gráfján két alapfeladatra gyakoroltatták be: egyrészt videosorozat darabjairól a bennük látható cselekvéseket leíró szóhoz kapcsolódó numerikus megjelenítést, majd ezeket összekombinálva a sorozat összes videójában lévő absztrakciót azonosító reprezentációs sort generálni.
A modell korlátja, hogy egyes jegyeket túlhangsúlyoz. Például amikor sportvideó-sort kellett kiegészítenie, egy csecsemőt és egy labdát megjelenítő klipet is a többihez rendelt.
Ha egy mélytanuló modell absztraktabb „gondolkodásra” képes, talán kevesebb adattal is elboldogul, és az absztrakción keresztül juthat el az emberi szintű gondolkodásig.