Az elmúlt hónapokban a Google finomhangolta fordítótechnológiáját, a Translate-et tavaly kiejtésfajtákkal bővítette, így egyes nyelvek dialektusait is képes visszaadni. Az eszközt több nyelvvel egészítette ki, év elején pedig „fordító móddal” bővítette a Google Asszisztenset. Az okos kijelzőkön és hangfalakon működő módban 26 nyelvről lehet oda- és visszafordítani.
A cég a napokban újabb mérföldkőnek ígérkező, látványos eredményt tett nyilvánossá.
Május 15-én ugyanis bemutatta fejlesztési stádiumban lévő Translatotronját, a kategóriájában úttörő, beszédet közvetlenül egy másik nyelvre lefordító modellt. Különlegessége, hogy a beszélő hangja és hanglejtése, beszédritmusa a másik nyelven is ugyanaz marad.
Hasonló modellek léteznek már, az eredeti beszélő hangját azonban egyik sem őrzi meg.
A beszédfordítás eddig három lépésben zajlott: a szöveg átírása, az átírt szöveg lefordítása, hanggenerálás a lefordított szöveghez.
A modell kikerüli az elsőt, a beszédet nem alakítja át szöveggé, és aztán azt vissza beszéddé, hanem egyből beszéddé fordítja. A megközelítés előnye, hogy az első fázisban gyakran történnek hibák, és a végső anyag pontatlanabb, mint a közvetlen fordításnál.
A nagyvállalat reméli, hogy a Translatotron közvetlen fordítómodell fellendíti az ezirányú fejlesztéseket.
A fordító szakaszról szakaszra dolgozó hálózati modellt használ. A modell spektrogrammal, a frekvenciák képi ábrázolásával dolgozza fel a hangbemenetet, majd új spektrogramot generál a célnyelven. A fordítás így sokkal gyorsabbá válik, és kisebb a valószínűsége, hogy menet közben valami kimarad, vagy hiba történik.
Az eszközhöz tartozik egy, a beszélő hangjának megőrzéséért felelős optimális beszédkódoló komponens is. A lefordított anyag egyelőre szintetizált, és kicsit robotikusan hangzik, de az eredeti hang számos elemét megtartja.
Ne felejtsük el, a Translatotron távolról sem késztermék, nyilvánvalóan sokkal emberibb hang lesz a végeredmény.