Szöveg beszéddé alakítása (text-to-speech) ma már viszonylag egyszerű, a technológia jóvoltából hamar létrehozható könyvek audiováltozata, digitalizált, szintetikus hangokkal. Cseppet sem meglepő módon folyamatosan bővül a hangoskönyvek (audiokönyvek) piaca.
Ha nem trendteremtő, akkor a nyugati trendekre mindig reflektáló, ebben az esetben azokat követő Kínában sincs másként, márpedig az ország lélekszámát tekintve, óriási az üzleti potenciál. Az iMedia szellemi műhely a piac megduplázódását várja 2016 és 2020 között; a periódus végén a kb. 900 millió brit fontnak megfelelő 7,8 milliárd jüan éves bevételre számítanak.
Az érdeklődők viszont a világ minden táján imádják a profi narrációt, ha például maga a szerző, esetleg színészek vagy más hírességek olvassák fel a művet – ha többet nem is, legalább részleteket belőle.
Azonban sok esetben az írónak stb. akár egy hónapot is el kell töltenie a hanganyag felvételével, amelyre értelemszerűen nincs mindig ideje. Ezen a ponton segítenek a fejlett MI-, gépitanulás-megoldások, hang- és beszédtechnológiák. Egyes cégek például egyperces audiofelvételből többek között Donald Trumpról vagy Barack Obamáról, de természetesen másokról is elkészítenek hang avatárokat.
A lehetőséget a kínai Sogou keresőmotor mögött álló vállalkozás is felismerte, és mesterségesintelligencia-technikákat alkalmazva, nemcsak szerzők hangját sikerült utánozniuk, hanem az avatár külseje is hasonlít az adott személyre. A hang egyezik az eredetivel, és elvileg bármelyik népszerű szerzővel kivitelezhető.
Az avatárokat videofelvételek alapján készítik, és a Kínai Online Irodalom+ konferencián be is jelentették, hogy Yue Guan és Bu Xin Tian Shang Diao lesz az első két író, akiket MI avatárok személyesítenek meg, nemcsak hangra, hanem vizuálisan is.
A könyvet a Zhangyue Technology e-olvasó alkalmazására adják ki.
Ha az olvasók pozitívan reagálnak az első avatárokra, valószínűleg jönnek majd az újabbak. A technika nem korlátozódik élő szerzőkre, mert ha elég audió- és videoanyag áll rendelkezésre, például hologramos megoldásokkal kombinálva, halott szerzőkre is alkalmazható.
A Sogou nem először próbálkozik a technológiával. Tavaly két „fantom” hírolvasót mutattak be és állítottak munkába, a Xinhua állami hírügynökség azóta is alkalmazza a két mesterséges intelligenciát.
A londoni DeepZen startup szerint szintetikus beszédtechnológiával néhány óra leforgása alatt egy hangoskönyv több változata elkészíthető, ami anyagilag is nagyon előnyös. A gyártási idő és költség ugyanis 90 százalékkal csökken.