A GOOGLE ÚJ SZÖVEGFELOLVASÓ INTELLIGENCIÁJA OLYAN JÓ, HOGY FOGADUNK, HOGY NEM TUDJA MEGMONDANI VALÓDI EMBERTŐL

Meg tudja különböztetni az AI által generált számítógépes beszédet egy valódi, élő ember között? Talán mindig is azt hitted, hogy tudsz. Talán kedveled Alexát és Sirit, de hidd el, hogy soha nem tévesztenéd meg őket egyikükkel sem egy tényleges nővel.

A dolgok sokkal érdekesebbé válnak. A Google mérnökei keményen dolgoztak az úgynevezett szövegfelolvasó rendszer létrehozásában Tacotron 2 . Szerint a papír ebben a hónapban tették közzé, a rendszer először létrehoz egy spektrogramot a szövegből, vizuális ábrázolást arról, hogyan kell a beszédnek megszólalnia. Ez a kép a Google meglévő WaveNet algoritmusán keresztül kerül be, amely a képet rendkívül természetes hangzású emberi beszéd előállítására használja.

Nancy Grace még mindig házas

Ezzel a módszerrel a kutatók beszámolnak: 'A modellünk 4,53 átlagos vélemény-pontszámot (MOS) ér el, összehasonlítva a professzionálisan rögzített beszéd 4,58-as MOS-jával.' (Az átlagos vélemény pontszám egy telekommunikációs kifejezés, amely azt méri, hogy valami valósághűen hangzik.)

Amint azt a Google hangmintái bizonyítják, a Tacotron 2 a kontextusból képes felismerni a „sivatag” és a „sivatag” ige, valamint a „jelen” és a „jelen” ige közötti különbséget, és ennek megfelelően módosíthatja a kiejtését. Hangsúlyt helyezhet a nagybetűs szavakra, és a kérdéses kérdés feltevése helyett a megfelelő ragozást alkalmazhatja.

És olyan szöveget generálhat, amely annyira hasonlít az emberi beszédre, hogy nehéz vagy lehetetlen megismerni a különbséget. Ha meg szeretné tudni, milyen nehéz, keresse fel a Google webhelyét hangminták oldal , és görgessen le az utolsó mintakészletig, amelynek címe: „Tacotron 2 vagy Ember?” Itt találja a Tacotron 2-t és egy valódi személyt, akik mindegyik mondatot mondanak: „Az a lány készített egy videót a Star Wars rúzsról”.

SPOILER-RIASZTÁS: Ha tesztelni akarja magát, hallgassa meg a mintákat, és kitalálja, melyik az, mielőtt elolvassa az oszlop többi részét.

Tehát melyik minta a szövegfelolvasás és melyik az igazi emberi hang? A Google mérnökei nem mondják, de nagyon nagy nyomot hagytak. A .wav fájlminták mindegyikének van egy fájlneve, amely vagy a „gen”, vagy a „gt” kifejezést tartalmazza. A cikk alapján nagyon valószínű, hogy a „gen” a Tacotron 2 által generált beszédet jelöli, a „gt” pedig valódi emberi beszéd. (A „GT” valószínűleg az „alapigazság”, a gépi tanulás kifejezését jelenti, amely alapvetően a „valódi üzletet” jelenti.)

Feltéve, hogy ez helyes, íme a tesztre adott válaszok: