Újabb lépés az „igazi” mesterséges intelligencia felé?

2022. május 26. - ferenck

A Google-hoz tartozó DeepMind kutatói egy lépéssel közelebb kerültek egy régi célhoz: modelljük egy csomó – hatszáznál több – különböző feladatot hajt végre, például képaláírásokat generál, valódi robot karját irányítja, vagy éppen Atari-játékokkal üti agyon az időt stb.

Az 1,2 milliárd paraméteres Gato modellt (ami spanyolul macskát jelent) hét látás-szöveg feladaton, robotok kép- és mozgás adatsorán, csúcsminőségű Atari-szimulációkon és egy nyelvi adatsoron, a Massive Texten gyakoroltatták.

Összességében jól teljesített.

Az ALE Atariban 51 játékból 23-ban elérte vagy meghaladta az átlagos emberi pontszámot, sőt, a 23-ból tizenegyszer legalább kétszer annyit, mint a human gamerek. A több mint 450 szimulációs feladat jelentős részével szintén elboldogult, és a robotkart is jól irányította. A kar vörös tömböt rakott egy kékre, miközben a zöldről tudomást sem vett. Korábban nem látott hasonló alakzatokat, így az ötven százalékos eredménye különösen megsüvegelendő. Egy speciális alapmodell 49 százalékot teljesített.

Nando de Freitas, a DeepMind kutatási igazgatója szerint minden a méretezésről szól. „A nagyobb modellek és a jobb adatok a kulcsok az általános mesterséges intelligenciához (AGI)” – jelentette ki.

A New York Egyetemen kutató Gary Marcus nem ért egyet ezzel az állítással. A nagy ideghálók kétségtelenül érnek el kiváló eredményeket, viszont túl gyakran generálnak zavarba ejtő mondatokat, képeket és viselkedésformákat – érvel, és igaza is van.

A DeepMind munkája mindenesetre a multimodális mesterséges intelligencia legújabb és legmasszívabb példája. A transzformer ideghálók nagyon jól passzolnak sok feladathoz – ez részben azért lehetséges, mert a hosszú bemeneti szekvenciákban mindig találnak mintázatokat, és mert sokféle adattípus osztható szekvenciákra.

Gato valóban bámulatra méltó mérnöki munka, de túl nagy – hangzik több ellenérv. Ugyanazt az ötszáznál több feladatot kisebb ideghálók is képesek elvégezni. Igen, viszont nem tudnak általánosítani, és itt ez a lényeg.

Egy teszten a fejlesztők négy új feladatra finomhangolták, gyakoroltatták a rendszert, és végül a négyből háromszor jobb munkát végzett, mint az ezekre specializált modellek.