Ako môže AI urobiť počítačovú reč prirodzenejšou

Obsah:

Ako môže AI urobiť počítačovú reč prirodzenejšou
Ako môže AI urobiť počítačovú reč prirodzenejšou
Anonim

Kľúčové poznatky

  • Spoločnosti sa pretekajú v hľadaní spôsobov, ako urobiť počítačom vygenerovanú reč realistickejšie.
  • NVIDIA nedávno predstavila nástroje, ktoré dokážu zachytiť zvuk prirodzenej reči tým, že vám umožnia trénovať AI vlastným hlasom.
  • Intonácia, emócie a muzikálnosť sú vlastnosti, ktoré počítačovým hlasom stále chýbajú, hovorí jeden odborník.
Image
Image

Počítačom generovaná reč môže čoskoro znieť oveľa ľudskejšie.

Výrobca počítačových dielov NVIDIA nedávno predstavil nástroje, ktoré dokážu zachytiť zvuk prirodzenej reči tým, že vám umožnia trénovať AI pomocou vášho hlasu. Softvér tiež dokáže dodať slová jedného rečníka pomocou hlasu inej osoby. Je to súčasť narastajúceho úsilia, aby bola reč počítača realistickejšia.

"Pokročilá technológia umelej inteligencie umožňuje používateľom hovoriť prirodzene, spája mnoho otázok do jednej vety a eliminuje potrebu neustále opakovať detaily z pôvodného dotazu," Michael Zagorsek, prevádzkový riaditeľ spoločnosti SoundHound na rozpoznávanie reči., povedal Lifewire v e-mailovom rozhovore.

„Pridanie viacerých jazykov, ktoré sú teraz k dispozícii na väčšine platforiem umelej inteligencie, sprístupňuje digitálnych hlasových asistentov vo viacerých geografických oblastiach a pre viac populácií,“dodal.

Robotická reč na vzostupe

Amazonské Alexa a Apple Siri znejú oveľa lepšie ako počítačová reč spred desiatky rokov, no v blízkej dobe si ich nebudú pomýliť s autentickými ľudskými hlasmi.

Aby umelá reč znela prirodzenejšie, tím výskumu prevodu textu na reč spoločnosti NVIDIA vyvinul model RAD-TTS. Systém umožňuje jednotlivcom učiť model prevodu textu na reč (TTS) svojim hlasom, vrátane tempa, tonality, zafarbenia a ďalších faktorov.

Spoločnosť použila svoj nový model na vytvorenie viac konverzačne znejúceho hlasového rozprávania pre svoju sériu videí I Am AI.

Pomocou tohto rozhrania sa náš videoproducent mohol zaznamenať pri čítaní scenára videa a potom pomocou modelu AI previesť svoju reč na hlas ženského rozprávača. Pomocou tohto základného rozprávania by potom producent mohol riadiť AI ako hlasový herec – vyladenie syntetizovanej reči na zdôraznenie konkrétnych slov a úprava tempa rozprávania, aby lepšie vyjadril tón videa,“napísala NVIDIA na svojej webovej stránke.

Ťažšie, než to znie

Prirodzenosť počítačom generovanej reči je podľa odborníkov zložitý problém.

„Potrebujete nahrať stovky hodín niečieho hlasu, aby ste vytvorili jeho počítačovú verziu,“povedal pre Lifewire v e-mailovom rozhovore Nazim Ragimov, generálny riaditeľ softvérovej spoločnosti na prevod textu na reč Kukarella. „A nahrávka musí byť kvalitná, nahratá v profesionálnom štúdiu. Čím viac hodín kvalitnej reči sa načíta a spracuje, tým lepší bude výsledok."

Prevod textu na reč možno použiť v hrách, na pomoc jednotlivcom s poruchami hlasu alebo na pomoc používateľom pri preklade medzi jazykmi ich vlastným hlasom.

Intonácia, emócie a muzikálnosť sú vlastnosti, ktoré počítačovým hlasom stále chýbajú, povedal Ragimov.

Ak AI dokáže pridať tieto chýbajúce odkazy, počítačom generovaná reč bude „na nerozoznanie od hlasov skutočných hercov,“dodal. „Na tom sa pracuje. Ostatné hlasy budú môcť konkurovať moderátorom rádia. Čoskoro uvidíte hlasy, ktoré dokážu spievať a čítať audioknihy.“

Technológia reči sa stáva populárnejšou v širokej škále firiem.

"Automobilový priemysel nedávno prijal hlasovú AI ako spôsob, ako vytvoriť bezpečnejšie a prepojenejšie zážitky z jazdy," povedal Zagorsek.

„Odvtedy sa hlasoví asistenti stávajú čoraz rozšírenejšími, pretože značky hľadajú spôsoby, ako zlepšiť skúsenosti zákazníkov a uspokojiť dopyt po jednoduchších, bezpečnejších, pohodlnejších, efektívnejších a hygienickejších metódach interakcie s ich produktmi a službami.“

Hlasová umelá inteligencia zvyčajne prevádza dopyty na odpovede v dvojkrokovom procese, ktorý začína prepisom reči do textu pomocou automatického rozpoznávania reči (ASR) a následným vložením tohto textu do modelu porozumenia prirodzeného jazyka (NLU).

Image
Image

Prístup SoundHound spája tieto dva kroky do jedného procesu na sledovanie reči v reálnom čase. Spoločnosť tvrdí, že táto technika umožňuje hlasovým asistentom porozumieť významu používateľských otázok ešte predtým, ako osoba prehovorí.

Budúce pokroky v počítačovej reči vrátane dostupnosti rôznych možností pripojenia od iba vstavaného (nevyžaduje sa cloudové pripojenie) po hybridné (zabudované plus cloud) a iba cloud „poskytnú spoločnostiam v rôznych odvetviach väčší výber pokiaľ ide o náklady, súkromie a dostupnosť výpočtového výkonu,“povedal Zagoresk.

NVIDIA uviedla, že jej nové modely umelej inteligencie idú nad rámec práce s hlasom.

„Prevod textu na reč možno použiť v hrách, na pomoc jednotlivcom s poruchami hlasu alebo na pomoc používateľom pri preklade medzi jazykmi ich vlastným hlasom,“napísala spoločnosť. „Dokonca dokáže obnoviť vystúpenia ikonických spevákov, pričom sa zhoduje nielen s melódiou piesne, ale aj s emocionálnym výrazom za vokálom.“

Odporúča: