Képes-e mesterséges intelligencia megváltoztatni zeneművek stílusát, popból klasszikust vagy dzsesszt csinálni?
Igen, képes – állítja a San Diegói Kaliforniai Egyetemen számítógépes zenét tanító Shlomo Dubnov és Conan Lu, egy redmondi főiskola diákja.
Erre a tevékenységre alkalmas gépitanulás-eszközt fejlesztettek. Elmondásuk alapján az eddigi hasonló próbálkozások azért nem sikerültek, mert a gépek nem tudtak különbséget tenni stílus és tartalom között.
ChordGAN rendszerük, egy generatív ellenséges hálózat (GAN) speciális (chroma) mintavétellel dolgozik, csak egy, tizenkét tónusú hangkiosztás profillal választja szét a stílust, a zenei textúrát a tartalomtól, például a hang- és az akkordváltásoktól. Stílus és tartalom explicit megkülönböztetésével a hálózat folyamatosan meg tudja tanulni a stílusjegyeket.
Dubnov és Lu az egyetem 2019-es nyári zenei táborán találkoztak, majd online dolgoztak együtt. Többszáz MIDI audió adatmintából álló, pop, dzsessz és klasszikus anyagokból gyűjtött adatsort alakítottak ki. A MIDI-fájlokat előzetesen úgy dolgozták fel, hogy az audiófájlok zongorafutamokká és chroma formátummá váljanak. A hálózat így tanulta meg hangjegyek átalakítását.
„A rugalmasság az egyik előnye, különböző zenei műfajokkal elboldogul. Inputként bármilyen tonális zene megadható neki, abból generál speciális stílusú darabot” – magyarázza Lu.
A rendszert egyedi módszerekkel értékelték ki. Mérték, hogy megmarad-e az eredeti tartalom (akkordok, harmóniák stb.), hogy a stílusváltásnál nem marad-e ki valami.
A stílustranszfer eredményét pontozó zenei osztályozót is fejlesztettek. Az osztályozó 74 százalékkal a dzsesszben teljesített legjobban, de a pop- (68 százalék) és a klasszikus zenében (64 százalék) is megfelelt.
Dubnov és Lu szerint rendszerükkel zenészek tanulmányozhatnak kompozíciós technikákat, a zenedarab főbb jegyeit meghatározó speciális kottákból pedig automatikusan generálhatnak számokat.