Ako môže AI urobiť počítačovú reč prirodzenejšou

👤 Autor Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 07:00.
🖍 Naposledy zmenené 2025-06-01 07:18.

Kľúčové poznatky

Spoločnosti sa pretekajú v hľadaní spôsobov, ako urobiť počítačom vygenerovanú reč realistickejšie.
NVIDIA nedávno predstavila nástroje, ktoré dokážu zachytiť zvuk prirodzenej reči tým, že vám umožnia trénovať AI vlastným hlasom.
Intonácia, emócie a muzikálnosť sú vlastnosti, ktoré počítačovým hlasom stále chýbajú, hovorí jeden odborník.

Počítačom generovaná reč môže čoskoro znieť oveľa ľudskejšie.

Výrobca počítačových dielov NVIDIA nedávno predstavil nástroje, ktoré dokážu zachytiť zvuk prirodzenej reči tým, že vám umožnia trénovať AI pomocou vášho hlasu. Softvér tiež dokáže dodať slová jedného rečníka pomocou hlasu inej osoby. Je to súčasť narastajúceho úsilia, aby bola reč počítača realistickejšia.

"Pokročilá technológia umelej inteligencie umožňuje používateľom hovoriť prirodzene, spája mnoho otázok do jednej vety a eliminuje potrebu neustále opakovať detaily z pôvodného dotazu," Michael Zagorsek, prevádzkový riaditeľ spoločnosti SoundHound na rozpoznávanie reči., povedal Lifewire v e-mailovom rozhovore.

„Pridanie viacerých jazykov, ktoré sú teraz k dispozícii na väčšine platforiem umelej inteligencie, sprístupňuje digitálnych hlasových asistentov vo viacerých geografických oblastiach a pre viac populácií,“dodal.

Robotická reč na vzostupe

Amazonské Alexa a Apple Siri znejú oveľa lepšie ako počítačová reč spred desiatky rokov, no v blízkej dobe si ich nebudú pomýliť s autentickými ľudskými hlasmi.

Aby umelá reč znela prirodzenejšie, tím výskumu prevodu textu na reč spoločnosti NVIDIA vyvinul model RAD-TTS. Systém umožňuje jednotlivcom učiť model prevodu textu na reč (TTS) svojim hlasom, vrátane tempa, tonality, zafarbenia a ďalších faktorov.

Spoločnosť použila svoj nový model na vytvorenie viac konverzačne znejúceho hlasového rozprávania pre svoju sériu videí I Am AI.

Pomocou tohto rozhrania sa náš videoproducent mohol zaznamenať pri čítaní scenára videa a potom pomocou modelu AI previesť svoju reč na hlas ženského rozprávača. Pomocou tohto základného rozprávania by potom producent mohol riadiť AI ako hlasový herec - vyladenie syntetizovanej reči na zdôraznenie konkrétnych slov a úprava tempa rozprávania, aby lepšie vyjadril tón videa,“napísala NVIDIA na svojej webovej stránke.

Ťažšie, než to znie

Prirodzenosť počítačom generovanej reči je podľa odborníkov zložitý problém.

„Potrebujete nahrať stovky hodín niečieho hlasu, aby ste vytvorili jeho počítačovú verziu,“povedal pre Lifewire v e-mailovom rozhovore Nazim Ragimov, generálny riaditeľ softvérovej spoločnosti na prevod textu na reč Kukarella. „A nahrávka musí byť kvalitná, nahratá v profesionálnom štúdiu. Čím viac hodín kvalitnej reči sa načíta a spracuje, tým lepší bude výsledok."

Prevod textu na reč možno použiť v hrách, na pomoc jednotlivcom s poruchami hlasu alebo na pomoc používateľom pri preklade medzi jazykmi ich vlastným hlasom.

Intonácia, emócie a muzikálnosť sú vlastnosti, ktoré počítačovým hlasom stále chýbajú, povedal Ragimov.

Ak AI dokáže pridať tieto chýbajúce odkazy, počítačom generovaná reč bude „na nerozoznanie od hlasov skutočných hercov,“dodal. „Na tom sa pracuje. Ostatné hlasy budú môcť konkurovať moderátorom rádia. Čoskoro uvidíte hlasy, ktoré dokážu spievať a čítať audioknihy.“

Technológia reči sa stáva populárnejšou v širokej škále firiem.

"Automobilový priemysel nedávno prijal hlasovú AI ako spôsob, ako vytvoriť bezpečnejšie a prepojenejšie zážitky z jazdy," povedal Zagorsek.

„Odvtedy sa hlasoví asistenti stávajú čoraz rozšírenejšími, pretože značky hľadajú spôsoby, ako zlepšiť skúsenosti zákazníkov a uspokojiť dopyt po jednoduchších, bezpečnejších, pohodlnejších, efektívnejších a hygienickejších metódach interakcie s ich produktmi a službami.“

Hlasová umelá inteligencia zvyčajne prevádza dopyty na odpovede v dvojkrokovom procese, ktorý začína prepisom reči do textu pomocou automatického rozpoznávania reči (ASR) a následným vložením tohto textu do modelu porozumenia prirodzeného jazyka (NLU).

Prístup SoundHound spája tieto dva kroky do jedného procesu na sledovanie reči v reálnom čase. Spoločnosť tvrdí, že táto technika umožňuje hlasovým asistentom porozumieť významu používateľských otázok ešte predtým, ako osoba prehovorí.

Budúce pokroky v počítačovej reči vrátane dostupnosti rôznych možností pripojenia od iba vstavaného (nevyžaduje sa cloudové pripojenie) po hybridné (zabudované plus cloud) a iba cloud „poskytnú spoločnostiam v rôznych odvetviach väčší výber pokiaľ ide o náklady, súkromie a dostupnosť výpočtového výkonu,“povedal Zagoresk.

NVIDIA uviedla, že jej nové modely umelej inteligencie idú nad rámec práce s hlasom.

„Prevod textu na reč možno použiť v hrách, na pomoc jednotlivcom s poruchami hlasu alebo na pomoc používateľom pri preklade medzi jazykmi ich vlastným hlasom,“napísala spoločnosť. „Dokonca dokáže obnoviť vystúpenia ikonických spevákov, pričom sa zhoduje nielen s melódiou piesne, ale aj s emocionálnym výrazom za vokálom.“

Odporúča:

Ako môže AI urobiť počítačovú reč prirodzenejšou

Obsah:

Kľúčové poznatky

Robotická reč na vzostupe

Ťažšie, než to znie

Odporúča:

Ako používať funkciu prevodu textu na reč Google v systéme Android

Ako nastaviť reč na text v systéme Android

ARP (Address Resolution Protocol) a vašu počítačovú sieť

Zahrajte si počítačovú hru v režime okna

Aké sú najlepšie školy pre 3D počítačovú animáciu?

Ako sa overiť na TikTok

Ako preniesť fotografie z fotoaparátu do iPhonu

Tipy, ako získať viac basov v aute

Ako vám VR môže pomôcť získať kondíciu

Ako zrušiť Xbox Game Pass

Ako zabezpečiť svoj prehliadač Firefox

Získajte rýchlejší prístup ku gramatike v Dokumentoch Google

Na nájdenie problémov použite Apple Hardware Test (AHT)

Ako inovovať Nainštalujte OS X El Capitan do svojho Macu

Znížte náklady na úložisko iCloud prostredníctvom fotografií s viacerými knižnicami fotografií

Pokročilý model Razer Blade 15 je teraz k dispozícii

Lenovo predstavuje nové herné počítače Legion

Nie, nepotrebujeme vždy zapnuté displeje v každom inteligentnom zariadení

Apple Brass údajne ututlal hacknutie iPhonu

9 najlepších NVMe SSD z roku 2022