A multimodális mesterséges intelligencia színrelépése

2022. február 22. - ferenck

Az utóbbi hónapok, néhány év legfontosabb mélytanulás-eredményeit a szöveggel és képekkel foglalkozó modellek, köztük a legendává vált GPT-3 és az EfficientNet érték el. Eközben beindultak a szövegek és képek közötti kapcsolatokkal foglalkozó projektek, és míg a legtöbb multimodális (több módban is működő) MI-rendszer ugyan kísérleti jellegű, néhány valóvilágbeli alkalmazás is működik már.

Az OpenAI 2021-ben komoly eredményeket ért el a CLIP rendszerrel a multimodális tanulásban. CLIP szövegeket és képeket társít össze, a Dall-E szöveges inputokhoz kapcsolódó képeket generál. A DeepMind Perceiver IO-ja szövegeket, képeket, videókat és adatpontokat elemez. A Stanford Egyetem ConVIRT rendszere szöveges címkékkel látott el orvosi röntgenfelvételeket.

A generatív ellenséges hálózatokkal (GAN) kombinált CLIP a digitális művészetekben is jeleskedett: a képzőművész Martin O’Leary Samuel Coleridge Kubla kán versét adta meg neki inputnak, és az MI pszichedelikus videóval állt elő (Sinuous Rills).

A Facebook multimodális gyűlöletbeszéd-detektora a sértő és káros tartalmak 97 százalékát felcímkézte, eltávolította. A rendszer tíz adattípus (szöveg, kép, videó stb.) alapján osztályoz mémeket és más kép-szöveg párosításokat.

A Google multimodális és többnyelvű képességekkel bővíti keresőmotorját. A Multitask Unified Model hetvenöt nyelven feltett kérdésekre áll elő szövegekre, audioanyagokra, képekre és videókra mutató linkekkel.

A multimodális megközelítés beindulása többévtizedes kutatás eredménye.

A John Hopkins Egyetem és a UC San Diego kutatói 1989-ben fejlesztettek egy, a mássalhangzókat beszélő emberekről készült audió- és vizuális anyagok alapján osztályozó rendszert. A következő két évtizedben többen próbálkoztak változatos multimodális alkalmazásokkal: digitális videokönyvtárak indexelésével, emberi érzelmek audiovizuális adatok alapján történő osztályozásával stb.

A képek és a szövegek annyira komplexek, hogy a múltban a kutatók teljes kapacitással fókuszáltak vagy az egyikre, vagy a másikra, így pedig nagyon különböző technikákat fejlesztettek. A 2010-es években viszont a gépi látás és a természetesnyelv-feldolgozás ideghálókkal történő integrálódásával megnyíltak az egyesített modellek felé vezető kapuk.