Fejlesztik és eddig kifejezetten ígéretes az Amazon nagy szöveget beszéddé alakító nyelvmodellje

2024. március 08. - ferenck

Az Amazon kutatói új nagy nyelvmodellen (LLM) dolgoznak, szöveget alakít beszéddé (text-to-speech). BASE TTS 980 paraméteres, változatos méretű modelleket treníroztak hozzá, az MI változatai százezer órát töltöttek el nyilvános beszédadatokkal.

Figyelték, hogy bizonyos szintet átlépve, ugyanazok a teljesítménybeli ugrások jellemzik-e, mint a természetesnyelv-feldolgozó MI-ket, és rájöttek, hogy a tízezer órányi audióanyagon gyakoroltatott, közepes méretű 400 millió paraméteres modell sokoldalúságban és robusztusságban is jelentősen javult trükkös tesztmondatoknál.

A tesztmondatok komplex lexikai, szintaktikai és paralingvisztikai elemeket tartalmaztak: összetett főneveket, érzelmeket, idegen szavakat, és a szöveg-beszéd rendszereket általában megzavaró ékezeteket. Bár a modell nem kezelte őket tökéletesen, hasonló MI-rendszerekkel összehasonlítva, kevesebbet hibázott hangsúlyban, kiejtésben, intonációban.

A mondatokat eleve úgy tervezték, hogy komoly buktatók, kihívások legyenek bennük elrejtve, és egyikük sem volt olyan, mint a gyakoroltatáshoz használtak. Az eredmény azt jelenti, hogy az MI emergens (a semmiből, váratlanul előbukkanó) készségekre tehetett valamikor szert.

A legnagyobb, 980 paraméteres változatot százezer órányi hanganyagon gyakoroltatták, és a 400 millió paraméteressel összevetve, hiába jóval nagyobb, semmiféle plusz adottságot nem figyeltek meg rajta.

A projekt ugyan kísérleti, de BASE TTS jól szemlélteti, hogy ezek a modellek, méretezés hatásaként, új sokoldalúsági küszöbértéket érhetnek el – intelligensebbek lesznek –, ami nagyon bíztató jel a beszélgető MI-fejlesztéseknek.

A kutatók folytatják munkájukat, hogy rájöjjenek: mi az optimális modellméret emergens képességekhez?

A modellt úgy tervezték, hogy könnyű és streamelhető legyen, az érzelmi és a prozódiai adatokat külön-külön, egymástól gondosan szétválasztva csomagolták belé. Így vált lehetővé a természetes nyelvinek tűnő beszélt audióanyag alacsony sávszélességű kapcsolatokon keresztüli továbbítása.