Nagyon sok információ kinyerhető az érzelmeket szinte mindig kifejező emberi hangból, és ezek az ismeretek rengeteg technológiai alkalmazásban használhatók: egészségügyi állapot vizsgálatára (például az öregkori demencia vagy szívroham bekövetkeztét előrevetítő jelek korai észlelésére), hatékonyabbá és empatikusabbá alakíthatók a beszélgető mesterségesintelligencia-rendszerek stb.
A technikák idővel a hangasszisztenseket (Google Assistant, Siri, Alexa) hibáik kijavításában segítő közvetlen visszacsatolásokkal szolgálhatnak.
Érzelmeket osztályozó MI-k eddig is voltak, viszont a hagyományos megközelítés a felügyelet melletti tanuláson alapul, a rendszer a beszélő emocionális állapota szerint címkézett gyakorlóadatokkal dolgozik.
Az Amazon kutatói más módszert választottak. Generatív ellenséges hálózatuk (generative adversarial network, GAN) kimerítően felcímkézett érzelem-korpusz helyett tíz beszélőtől összegyűjtött (nyilvánosan elérhető forrásból származó) 10 ezer kifejezésből álló gyűjteményből tanul.
A modell két részből, egy kódolóból és egy dekódolóból áll. Az előbbi a gyakorlópélda összes tulajdonságának kódolásával megtanulja, hogyan jelenítse meg kompakt formában a bemenő (input) beszédet, amelyből az utóbbi újraalkotja a bemenetet.
Az érzelemmegjelenítés három érzelemmértéknek (hangszín, aktivitás, dominancia) megfelelő három hálózati csomópontból áll. A gyakorlás első szakaszában a kódoló és a dekódoló külön-külön tanul a címkézetlen adatokkal. A másodikban a dekódoló eldönti a kódoló által megjelenített anyagokról, hogy valósak vagy mesterségesek, és közben, egymással „versengve”, folyamatosan javul a minőség. A harmadikban a finomhangolt kódoló a beszédbe rejtett emóciók megjelenítésével jelzi előre a gyakorlóadat érzelmi címkéjét.
Mondat-szintű beszédanyagokon végzett kísérletekből kiderült: az új rendszer 3 százalékkal jobban teljesített, mint a hagyományos algoritmusok. Amikor a mondatokat 20 milliszekundumnyi részekre bontották, 4 százalékkal bizonyult eredményesebbnek.
3-4 százalék nem nagy különbség, viszont ezek csak az első teszteredmények, azaz az új hálózat azonnal jobban működött. Hosszabb távon Alexa nyilvánvalóan sokkal hatékonyabbá válik.
A fejlesztés azt sugallja, hogy az intelligens asszisztensek jobban meg fogják érteni az embert, empatikusabbá válnak, és valószínűleg még eredményesebben értékesítenek termékeket.