Jelenetrészleteket módosít a mesterséges intelligencia

2020. október 22. - ferenck

Az Oxford Egyetem és a Google kutatói videón szereplő egyedi objektumok (személyek, tárgyak) mozgását megváltoztató mesterséges intelligenciát mutattak be. A munkára fordított idő lerövidítésével, a fejlesztés sokat segíthet videósoknak és filmeseknek.

Az idegháló a videón belül meg tud különböztetni személyeket, tárgyakat, és emellett képes felgyorsítani, illetve lelassítani a mozgásukat. Az eddigiekkel ellentétben, nem a teljes jelenet tempóját változtatja meg, hanem csak az egyik szereplő vagy tárgy mozdulatainak a sebességét. (Például a valóságosnál gyorsabban repül egy kő.)

Az új technikának köszönhetően, szerkesztők, vágók most már mindössze egyetlen eszközzel tudnak módosítani cselekvések tempóján.

A kutatók minden egyes képkockát (frame) több rétegre szedtek szét, és az ideghálónak megtanították, hogy azonosítsa a rajta látható személyeket és tárgyakat. Az MI rájuk összpontosít a rétegeken, alaposan figyeli a tevékenységüket, elkülöníti az összes személyt és tárgyat, majd meg is változtatja a mozgásukat.

A Google korábban videohívásokon jelbeszédet azonosító modellt fejlesztett, a jelenlegi munkához ez jelentette a kiindulási pontot. Az MI azonosítja az „aktív beszélőt”, viszont, ha csak a fejét és a kezét mozdítja meg, ignorálja közben a másik beszélőt. A modell hatékonyan és kevés késleltetéssel dolgozik.

A kutatók megállapították, hogy a jelbeszéd detektálása enyhe késéshez és a videó minőségének romlásához vezet, ugyanakkor mindkét probléma viszonylag könnyen megoldható, azaz a fejlesztés megbízhatónak, eredményesnek bizonyult.

Az új rendszer a PoseNet modellen lefuttatja a mozgókép-anyagot, amely aprólékosan felbecsüli a test, a végtagok képkockán belüli pozícióját. A leegyszerűsített vizuális információt átküldi a rendszerhez tartozó, testhelyzet-adatokon begyakoroltatott „jelbeszéd-modellhez.”

A személyeket, tárgyakat egyenként szétválasztják, kiszedik őket a háttérből, majd az egyedi elemek megváltoztatását követően, az MI újra összerakja a jelenetet.

Az idegháló így például felgyorsíthatja egy táncoló pár mozgását a bálteremben, miközben a többiek tempója nem változik, de ugyanennyi erővel lassíthat is rajtuk. A technikával egyes mozgások kihangsúlyozhatók, dramatizálhatók – és mindez fáradtságos manuális munka nélkül kivitelezhető.