Konverzácie s počítačom môžu byť realistickejšie

Obsah:

Konverzácie s počítačom môžu byť realistickejšie
Konverzácie s počítačom môžu byť realistickejšie
Anonim

Kľúčové poznatky

  • Meta používa AI na vytváranie programov, ktoré dokážu vyjadriť emócie rečou.
  • Tím spoločnosti AI uviedol, že urobila pokrok v modelovaní výrazových vokalizácií, ako je smiech, zívanie, plač a „spontánne rozhovory“v reálnom čase.
  • AI sa používa aj na zlepšenie rozpoznávania reči.
Image
Image

Vďaka sile umelej inteligencie (AI) už čoskoro budete môcť mať prirodzenejší chat so svojím počítačom.

Meta uviedla, že urobila významný pokrok vo svojom úsilí vytvoriť realistickejšie systémy reči generované AI. Tím spoločnosti AI uviedol, že urobil pokrok v schopnosti modelovať expresívne vokalizácie, ako je smiech, zívanie a plač, okrem „spontánneho klábosenia“v reálnom čase.

„V akejkoľvek konverzácii si ľudia vymieňajú preplnené neverbálne signály, ako sú intonácie, emocionálne prejavy, pauzy, akcenty, rytmy – ktoré sú dôležité pre ľudské interakcie,“napísal tím v nedávnom blogovom príspevku.. „Dnešné systémy umelej inteligencie však nedokážu zachytiť tieto bohaté, expresívne signály, pretože sa učia iba z písaného textu, ktorý zachytáva to, čo hovoríme, ale nie to, ako to hovoríme.“

Inteligentnejšia reč

V blogovom príspevku tím Meta AI uviedol, že pracuje na prekonaní obmedzení tradičných systémov AI, ktoré nedokážu porozumieť neverbálnym signálom v reči, ako sú intonácie, emocionálne výrazy, pauzy, akcenty a rytmy. Systémy sú brzdené, pretože sa môžu učiť len z písaného textu.

Práca spoločnosti Meta sa však líši od predchádzajúcich snáh, pretože jej modely AI môžu využívať modely spracovania prirodzeného jazyka na zachytenie celej povahy hovorenej reči. Výskumníci z Meta hovoria, že nové modely môžu umožniť systémom AI sprostredkovať pocity, ktoré chcú vyjadriť – napríklad nudu alebo iróniu.

"V blízkej budúcnosti sa zameriame na aplikáciu beztextových techník na vytváranie užitočných nadväzujúcich aplikácií bez toho, aby sme vyžadovali textové štítky náročné na zdroje alebo systémy automatického rozpoznávania reči (ASR), ako je napríklad odpovedanie na otázky (napr. počasie?"), " napísal tím v blogovom príspevku. „Veríme, že prozódia v reči môže pomôcť lepšie analyzovať vetu, čo zase uľahčuje pochopenie zámeru a zlepšuje výkon pri zodpovedaní otázok.“

Pochopenie schopností AI

Počítače sa nielen zlepšujú v komunikácii významu, ale AI sa používa aj na zlepšenie rozpoznávania reči.

Počítačoví vedci pracujú na počítačovom rozpoznávaní reči prinajmenšom od roku 1952, keď traja výskumníci z Bell Labs vytvorili systém, ktorý dokáže rozpoznať jednotlivé číslice, uviedol v e-maile Ryan Monsurate, technologický riaditeľ spoločnosti AI Dynamics. Lifewire. V deväťdesiatych rokoch boli systémy rozpoznávania reči komerčne dostupné, ale stále mali dostatočne vysokú chybovosť, aby odrádzali od používania mimo veľmi špecifických aplikačných oblastí, ako je zdravotníctvo.

„Teraz, keď modely hlbokého učenia umožnili súborovým modelom (ako sú tie od Microsoftu) dosiahnuť nadľudský výkon pri rozpoznávaní reči, máme technológiu na umožnenie verbálnej komunikácie s počítačmi nezávislej od rečníka,“povedal Monsurate. „Ďalšia fáza bude zahŕňať zníženie nákladov, aby každý, kto používa Siri alebo asistentov AI od Googlu, mal prístup k tejto úrovni rozpoznávania reči.“

Image
Image

AI je užitočná na rozpoznávanie reči, pretože sa môže časom zlepšovať učením, povedal Ariel Utnik, hlavný riaditeľ príjmov a generálny riaditeľ hlasovej spoločnosti AI Verbit.ai, v e-mailovom rozhovore Lifewire. Napríklad spoločnosť Verbit tvrdí, že jej interná technológia AI detekuje a filtruje hluk na pozadí a ozveny a prepisuje reproduktory bez ohľadu na prízvuk, aby vytvorila podrobné, profesionálne prepisy a titulky zo živého a nahratého videa a zvuku.

Utnik však povedal, že väčšina súčasných platforiem na rozpoznávanie reči je presná len na 75 – 80 %.

„AI nikdy úplne nenahradí ľudí, pretože osobná kontrola zo strany prepisovateľov, korektorov a redaktorov je nevyhnutná na zabezpečenie vysokej kvality a najvyššej presnosti konečného prepisu,“dodal.

Lepšie rozpoznávanie hlasu by sa dalo použiť aj na zabránenie hackerom, uviedol v e-maile Sanjay Gupta, viceprezident globálneho vedúceho vývoja produktov a spoločnosti v spoločnosti na rozpoznávanie hlasu Mitek Systems. Výskum naznačuje, že do dvoch rokov bude 20 percent všetkých úspešných útokov na prevzatie účtu využívať syntetické rozšírenie hlasu, dodal.

„To znamená, že keďže technológia deep fake sa stáva sofistikovanejšou, musíme súčasne vytvoriť pokročilé zabezpečenie, ktoré dokáže bojovať proti týmto taktikám spolu s hlbokými falošnými obrazmi a videom,“povedal Gupta. „Boj proti falšovaniu hlasu si vyžaduje technológiu detekcie živosti, ktorá dokáže rozlíšiť medzi živým hlasom a nahranou, syntetickou alebo počítačom vygenerovanou verziou hlasu.“

Oprava 2022-05-04: Opravený pravopis mena Ryan Monsurate v odseku 9.

Odporúča: