Csecsemők velük született adottságaik miatt értik a világunkat irányító fizikát, új fogalmakat és a nyelvet akkor is gyorsan megtanulják, ha korlátozott információ áll rendelkezésükre.
Még a mai legfejlettebb mesterségesintelligencia-rendszereknek sincsenek meg ezek a képességeik. A nyelvmodellek jól előrejelzik egy mondat következő szavát, de semmi közeli nincs bennük a csecsemők „józan eszéhez” (common sense).
De mi lenne, ha úgy tanulnának, mint a csecsemők?
A mai modelleket irdatlan adatkészleteken gyakoroltatják. A New York Egyetem kutatóit érdekelte, mit tudnak ezek a modellek, ha sokkal kisebb adatkészleteken, a beszélni tanuló gyerek által megtapasztalt látványokon és hangokon trenírozzák őket. Legnagyobb meglepetésükre, az MI egy érdeklődő csecsemő, Sam jóvoltából sokat tanult. Kamerát tettek a fiúcska fejére, hathónapos korától második születésnapjáig hordta. Az általa rögzített anyagból a kutatók rájöttek, hogyan tanítsák meg egy ideghálónak, hogy a szavakat az általuk reprezentált objektumokhoz társítsák.
A csecsemők évek óta inspirálják a gépitanulás-kutatókat. Pontos megfigyelők, kiváló tanulók, például próba-hiba módszerrel ismerik meg jobban a világot, pallérozódik az elméjük. Tudják, hogy a labda akkor is megvan, ha eldugják előlük, hogy szilárd, nem változtatja meg egyhamar a formáját, folyamatos „útvonalon” halad, hirtelen nem lehet mindenhova eljuttatni.
A Google DeepMind kutatói igyekeztek egy MI-rendszernek megtanítani az „intuitív fizika” érzékét. A modell egyedi pixelek helyett videókon látható objektumokra összpontosítva tanulta meg, hogyan mozognak dolgok. Többszázezer videón trenírozták. Ha egy csecsemő meglepődik, amikor a labda hirtelen kirepül az ablakon, azért van, mert a tárgy mozgása nem passzol a gyerek fizika-értelmezéséhez. A Google DeepMind kutatói elérték, hogy az MI is meglepődjön, ha egy tárgy az általa megtanulttól eltérő módon mozgott.
Yann LeCun, a Meta MI-főnöke szerint a mesterséges intelligencia megtanítása a világ gyerekekéhez hasonló megfigyelésére, az intelligensebb gépek felé vezető újabb fontos lépés. Az ember agyában világmodellként szimulálja a világot, tudunk intuitívan háromdimenziós jellegéről, és hogy a tárgyak nem tűnnek el, amikor nincsenek a látómezőnkben. Így következtetünk a labda vagy a bicikli pár másodpercen belüli térbeli pozíciójára.
Az MI-ből hiányzik – még – ez a józanész-bölcsesség. Csecsemőket figyelve, képesek lehetnek elsajátítani.