Megmondja az MI, hogyan készítsünk pizzát

2019. június 25. - ferenck

A sütés-főzéshez türelem, gyakorlat és persze ügyesség kell. Kérdés, hogy gépek képesek lesznek-e valaha is szert tenni hivatásos chefek évek alatt elsajátított szakértelmére?

Az MIT (Massachusetts Institute of Technology) új kutatása szerint talán igen.

Erről számolnak be a frissen publikált „Hogyan csináljunk pizzát: megtanulni egy kompozíciós rétegalapú GAN modellt” tanulmányban. Elmagyarázzák, hogy az ételről készült mindösszesen egy darab kép hogyan alakítható át a tennivalókat lépésről lépésre megmutató receptté. A PizzaGAN projektet megalapozó változást gépi tanulással kivitelezték. (A GAN a „generatív ellenséges hálózatot” – generative adversarial network rövidíti.)

A mélytanuló (deep learning) modellt a sütés-főzés különféle aspektusainak (összetevők hozzáadása, melegítés stb.) felismerésével tanították meg a pizza-készítésre. Így képes az ételről látott egyetlen képet szétszedni, az összetevőket vagy rétegeket elválasztani egymástól, a szekvenciáknak tekintett rétegeket sorrendbe rakni – mintha modulok lennének –, majd recept formájában újraalkotni az egészet.

Egy pizzához meg kell sodorni a kelt tésztát, mártást, sajtot kell hozzáadni, majd rá kell tenni a különböző összetevőket. Mivel mindegyik feladat bonyolult, az étel látványa folyamatosan változik, így minden egyes lépés bekerül az ideghálóba. A gép dolga felismerni, és a végtermékhez kapcsolni ezeket a folyamatokat.

Az első adatsor kb. 5500, clipart stílusban létrehozott szintetikus képből állt. A clipart, egyszerű tárgyak közérthető megjelenítésének bevett grafikai módszere, lehetővé tette a különféle feltétek stb. elkülönítését az alapképtől.

A szintetikus képek után a webről összegyűjtött 9213 valódi következett. Összesen 12 feltétet (sonka-, brokkoli-, kukorica-, bazsalikom-, gomba-, olajbogyó- és rukkola-képeket) adtak az adatsorhoz, majd jöhetett a tesztkép, amelyen a modell elsőként a feltéteket detektálta, aztán előrejelezte a sorrendjüket. Sikeresen járt el, mert a bejövő (input) képből megcsinálta a receptet (output).

Az MI meglepően jól, szinte hibátlanul teljesített az eddigi teszteken.

A kutatási eredmények, túlmutatnak a pizzán, gasztronómián. Ez a mesterséges intelligencia a jövőben más területeken, például divattervező-segédként is „munkára fogható.”