Ha valaha részt vettünk konferenciahíváson, nagyon jól tudjuk, mennyire fontos, hogy hang alapján felismerjünk személyeket. Ha nem menne, akkor még azzal sem lennénk tisztában, hogy kinek válaszoljuk meg a kérdést, kinek számoljunk be legújabb munkánkról.
Egy mesterséges intelligenciának sokkal nehezebb elsajátítania ezt a képességet. A Google gőzerővel dolgozik rajta, és a mamutvállalat szerint egy új rendszerük már most elég fejlett valóvilágbeli alkalmazásokra, és valósidőben ismer fel hangokat.
Korábban hallott beszélő személy hangját már nem olyan nehéz azonosítania egy MI-nek. Évek óta tanítunk, gyakoroltatunk rendszereket, és például Alexa vagy Siri viszonylag jól elboldogul a valóságban. Viszont, ha nem treníroztuk az adott hanggal, és valósidőben, a beszéd első pillanatától fel kell ismernie, komoly problémák adódnak.
Chong Wang, a Google mesterségesintelligencia-kutatója és munkatársai hangfolyamok részekre, homogén szegmensekre osztására, több beszélő személlyel felvett audióklipek személyekre bontására (diarizációra) bármikor képes MI-t fejlesztettek. Az új MI minden hasonló korábbi programnál jobban teljesít.
A Google megoldása jelentősen különbözik az eddigiektől. A mai diarizációs rendszerek zöme klaszterezésen, adatpontokat csoportosító gépitanulás-technikán alapul. Wang és csoportja ezzel szemben adatpont-szekvenciákat feldolgozó gépitanulás-modellt, úgynevezett visszacsatolt ideghálókat (recurrent neural networks) használ.
Ezek az akár rövidtávú memóriával is rendelkező fejlett ideghálók a kimenetet a bemenetre visszacsatolják, a háló aktivációs szintjei dinamikus rendszert alkotnak; stabil állapotot, de kaotikus viselkedést is mutathatnak.
A Google MI-je kifejezetten jól, mindössze 7,6 százalékos hibarátával teljesít.
A fejlesztők a rendszer finomításán, képességeinek növelésén dolgoznak. Az algoritmusokat feltették a GitHubra, így a fájlokat bárki letöltheti és használhatja kutatásaihoz.
A távolabbi cél valósidejű beszédek hibátlan gépi felismerése. Az eredmények több területen hasznosíthatók: élő felvételek feldolgozásánál, orvosok és betegeik közötti beszélgetések leírásánál stb.