Az NJSZT blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Absztrakt fogalmakat ismer fel egy mesterséges intelligencia

2020. szeptember 11. - ferenck

Az eseményekre vonatkozó absztrakt következtetés képessége az emberi intelligencia egyik meghatározó jegye. Ösztönösen tudjuk például, hogy a sírás és az írás kommunikációt jelent, vagy a fáról leeső panda és a földet érő repülőgép variációk a leszállásra.

Számítógépeknek általában meggyűlik a bajuk a valóság absztrakt kategóriákba rendezésével. Az utóbbi években a világ, tárgyak, állatok és cselekvések kapcsolatára vonatkozó szerkezeti információkkal ellátott szavakon és képeken gyakorló gépitanulás-modelljei viszont már előrelépést jelentenek.

Az MIT (Massachusetts Institute of Technology), a Columbia Egyetem és az IBM kutatói hibrid nyelv-látás rendszerrel kísérleteznek. A modell videókon látható dinamikus eseménysorokat hasonlít össze, állít ellentétbe egymással, és igyekszik megfejteni az azokat összekötő magasabb szintű fogalmakat.

fogalmak.jpg

Két vizuális kategóriában ugyanolyan jól, vagy jobban teljesített, mint az ember: mozgóképsorozatok kiegészítésében, illetve nem odaillő jelenet kiszűrésében. Például ugató kutyához és a kutyája mellett ordító férfihoz öt videóból választva, a síró csecsemőt társította.

Egy absztrakt eseményeket felismerő modell pontosabb, logikusabb előrejelzéseket tesz, és hasznosabb a döntéshozásban.

Miután a mély ideghálók tárgy- és cselekvés-felismerés szakértővé váltak, logikus következő lépés volt a látottak absztrahálása. Az egyik megközelítésben a mintakapcsolást és a szimbolikus programok logikáját hozták közös nevezőre, jelen kutatáshoz viszont egy másikat választottak: a modell a szavak jelentésébe beágyazott kapcsolatok, szöveges és vizuális adatbázisokból megismert kontextuális információk alapján következtet a látványra.

A „futás”, „súlyemelés”, „bokszolás” szavak például közelebb állnak a „gyakorlás” fogalmához, mint a „vezetéshez.” Az MI ilyen kontextuális infókat sajátított el. Az MIT és a DeepMind egy-egy adatsorán térképezte fel minden egyes ottani cselekvésosztály kapcsolatrendszerét: például a „szoborkészítés”, „faragás”, „festés” a „művészi tevékenység” fogalomba tartoznak. Mihelyst a modell felismer egy ilyen cselekvést, mondjuk a „szoborkészítést”, az adatsorban lévő hasonló tevékenységeket is képes kiválasztani.

Az absztrakt osztályok relációs gráfján két alapfeladatra gyakoroltatták be: egyrészt videosorozat darabjairól a bennük látható cselekvéseket leíró szóhoz kapcsolódó numerikus megjelenítést, majd ezeket összekombinálva a sorozat összes videójában lévő absztrakciót azonosító reprezentációs sort generálni.

A modell korlátja, hogy egyes jegyeket túlhangsúlyoz. Például amikor sportvideó-sort kellett kiegészítenie, egy csecsemőt és egy labdát megjelenítő klipet is a többihez rendelt.

Ha egy mélytanuló modell absztraktabb „gondolkodásra” képes, talán kevesebb adattal is elboldogul, és az absztrakción keresztül juthat el az emberi szintű gondolkodásig.

A bejegyzés trackback címe:

https://jelenbolajovobe.blog.hu/api/trackback/id/tr4716195830

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

GABOR2 2020.09.12. 23:09:54

A mesterséges intelligenciák képfelismesében nagyon fura "gyöngesések" vannak, ami miatt pl. az amerikai hadsereg kizárta, hogy használnák...

ujtechkor.blog.hu/2020/07/07/a_megbizhatatlan_es_bizarr_mesterseges_intelligencia