Az Neumann Társaság blogja a legfejlettebb infokom technológiákról

Jelenből a Jövőbe

Jelenből a Jövőbe

A gépi tanulásnak hála, legújabb számát több nyelven vette fel egy dél-koreai popsztár

2023. augusztus 10. - ferenck

A zeneipar árgus szemekkel figyeli a hanganyagokat készítő generatív mesterségesintelligencia-modelleket. Az egyik ok: rajongók mélytanulás-rendszerekkel igyekeznek utánozni kedvenceik hangját. A művészek és a kiadók reakciója megosztott.

Grimes például egy appal lehetővé teszi, hogy a felhasználók az övévé alakítsák át a hangjukat. A klónnal készült számok bevételének fele az énekesnőt, másik fele a felhasználót illeti meg. Eddig háromszáznál több rajongó töltött fel Grimes-stílusú anyagokat streaming-szolgáltatásokra.

kpop.jpg

A kevésbé belátó Universal Music kiadóóriás a művészei hangklónjával, rajongók által készített anyagok eltávolítására szólította fel a streaming-szolgáltatókat.

A népszerű dél-koreai popzene, a K-Pop egyik ismert alakja, Lee Hyun (Midnatt) legújabb száma, a Maquerade angolul, japánul, mandarinul, spanyolul, vietnámiul és természetesen anyanyelvén, koreaiul is elkészült. Az énekesnő egyik idegen nyelvet sem beszéli folyékonyan, ezért a legnagyobb K-Pop kiadó, a Hybe mélytanulás-rendszerrel javította a kiejtését.

kpop0.jpg

A Neural Analysis and Synthesis (NANSY) neurális beszédfeldolgozó rendszert a Hybe által januárban 36 millió dollárért felvásárolt szöuli Superzone fejlesztette.

Hangfelvételnél a NANSY a kiejtés-, a hangszín-, a hangmagasság- és a hangerő-információkat elkülöníti egymástól. A kiejtést wav2vec beszédfelismerő modellel, a hangszínt konvolúciós ideghálóval, a hangmagasságot speciális algoritmussal, a hangerőt spektrogrammal elemzi. Ezeket követően, a négy elemet egy alrendszer segítségével újraegyesíti.

Lee-vel mind a hat nyelven felvették a számot, majd anyanyelvi beszélőkkel rögzítették a nem-koreai változatokat. Mindegyik felolvasta a szöveget. NANSY az énekelt és a beszélt felvételeket egyesítve állította be az énekesnő kiejtését a másik öt nyelven.

Az alkalmazás a technológia kereskedelmi értékének újabb bizonyítéka. K-Pop művészek rendszeresen adnak ki angolul és japánul is számokat, de a zeneiparban legalább az 1930-as évek óta bevett a többnyelvű felvétel (amikor Marlene Dietrich dalait angolul és németül is elénekelte). Az új technikával az eddiginél is szélesebb körben terjedhetnek el zenék.

A bejegyzés trackback címe:

https://jelenbolajovobe.blog.hu/api/trackback/id/tr4118188549
süti beállítások módosítása