Bármilyen kameraszöget előállít a mesterséges intelligencia

2021. március 17. - ferenck

A filmrendezőket hamarosan nem korlátozzák többé a kamera-beállítások, mert egy új technikával a színészek tetszés szerinti szögből megörökíthetők. Kínai és amerikai kutatók közös munkája, a Neural Body ugyanis személyekről mindössze néhány szögből készült felvétel alapján generál új beállításokat.

Egy korábbi módszerrel (NeRF) 16 állókamera képeiből kivonatoltak, majd új szögbe szintetizáltak egy 3D modellt. A mostani fejlesztés megközelítése hasonló, viszont ezúttal nemcsak a különféle beállításokkal, hanem az azokhoz társítható video-képkockákkal (frame) is dolgoznak. Így valósulhat meg, hogy négy kamera inputja alapján a rendszer bármilyen szögből elkészíti a színész képét, és a beállítás az egymást követő képkockákon sem csúszik el.

A Neural Body 3D modellt hoz létre, pozícionálja, és meghatározza a bármely szögből kidolgozandó színeket. A kutatók 21 beállításból felvett kilenc jelenetet gyűjtöttek össze adatsorrá. Egy adott jelenet friss szögének szintetizálásához tanították be a rendszert – véletlenszerűen kiválasztott négy beállításon gyakoroltatták, a többit pedig letesztelték.

A videokockákat előre feldolgozták, hogy Neural Body kivonatolja belőlük az embert, és eltávolítsa a hátteret. Ezt követően kockánként módosítható humán modellt rendeltek a képhez. A folyamattal hálómodell jött létre, és minden csúcsához gyakoroltatható vektort rendeltek.

Egy 3D adatpontokra specializált idegháló megtanulta, hogyan térképezze fel a vektorokat, míg adott beállítások minden egyes pixelének színét úgy döntötték el, hogy követték a kamerából a pixelre irányuló fénysugarat, és a rendszer ez alapján végezte a színeket előrejelző paramétereket definiáló számításokat, amelyeket pixelenként megismételt.

Az ideghálót és a hálómodelleket együtt gyakoroltatták, hogy minimalizálják az előrejelzett és a tényleges kép közötti eltéréseket. Az eredménnyel elégedettek, Neural Body elődjénél sokkal jobban teljesített.

A rendszer egyelőre csak két karakter képét készítette el, a gyakorlatban (filmben) viszont jelenetbe kellene rendezni őket. A csak beállításokat integráló megközelítést használó képkocka-alapú módszer azonban mindenképpen előnyösebb az eddigieknél, mert a rendelkezésre álló összes információ feldolgozható vele. Kérdés persze, hogy hova fejlődik a technológia.