Čoskoro možno nebudete vedieť, že hovoríte s počítačom

Obsah:

Čoskoro možno nebudete vedieť, že hovoríte s počítačom
Čoskoro možno nebudete vedieť, že hovoríte s počítačom
Anonim

Kľúčové poznatky

  • Rýchlo sa blíži deň, keď nebudete vedieť rozlíšiť počítačom vygenerovanú reč od skutočnej.
  • Google nedávno predstavil LaMDA, model, ktorý by mohol umožniť prirodzenejšie konverzácie.
  • Produkcia ľudskej reči si tiež vyžaduje obrovské množstvo výpočtového výkonu.
Image
Image

Práve teraz je ľahké rozoznať, keď hovoríte s počítačom, ale to sa môže čoskoro zmeniť vďaka nedávnemu pokroku v AI.

Google nedávno predstavil LaMDA, experimentálny model, o ktorom spoločnosť tvrdí, že by mohol zvýšiť schopnosti jej konverzačných asistentov AI a umožniť prirodzenejšie konverzácie. Cieľom LaMDA je nakoniec normálne konverzovať takmer o čomkoľvek bez akéhokoľvek predchádzajúceho školenia.

Je to jeden z rastúceho počtu projektov umelej inteligencie, ktorý by vás mohol nechať premýšľať, či hovoríte s ľudskou bytosťou.

„Odhadujem, že v priebehu nasledujúcich 12 mesiacov sa používatelia začnú stretávať s týmito novými, emocionálnejšími hlasmi a zvyknú si na ne,“James Kaplan, generálny riaditeľ spoločnosti MeetKai, konverzačného virtuálneho hlasového asistenta a vyhľadávania AI. motor, povedal v e-mailovom rozhovore.

„Keď sa to stane, dnešná syntetizovaná reč bude znieť používateľom tak, ako nám dnes znie reč zo začiatku 21. storočia.“

Hlasoví asistenti s charakterom

Google LaMDA je postavený na Transformer, architektúre neurónovej siete vynájdenej spoločnosťou Google Research. Na rozdiel od iných jazykových modelov bol LaMDA Google vyškolený na skutočný dialóg.

Súčasťou výzvy na vytvorenie prirodzene znejúcej reči AI je otvorený charakter konverzácií, napísal Eli Collins z Googlu v blogovom príspevku.

Image
Image

„Rozhovor s priateľom o televíznej relácii by sa mohol rozvinúť do diskusie o krajine, v ktorej sa relácia natáčala, a potom sa pustiť do debaty o najlepšej regionálnej kuchyni tejto krajiny,“dodal.

S rečou robotov sa veci hýbu rýchlo. Eric Rosenblum, riadiaci partner v Tsingyuan Ventures, ktorá investuje do konverzačnej AI, povedal, že niektoré z najzákladnejších problémov v počítačom podporovanej reči sú prakticky vyriešené.

Napríklad miera presnosti porozumenia reči je už teraz extrémne vysoká v službách, ako sú prepisy vykonávané softvérom Otter.ai alebo lekárske poznámky vytvorené DeepScribe.

„Ďalšia hranica je však oveľa ťažšia,“dodal.

„Udržať si porozumenie kontextu, čo je problém, ktorý ďaleko presahuje spracovanie prirodzeného jazyka, a empatiu, ako napríklad, že počítače interagujúce s ľuďmi potrebujú pochopiť frustráciu, hnev, netrpezlivosť atď. Na oboch týchto otázkach sa pracuje, ale obe sú dosť ďaleko od uspokojivých."

Neurónové siete sú kľúčom

Na generovanie realistických hlasov spoločnosti používajú technológie, ako sú hlboké neurónové siete, čo je forma strojového učenia, ktorá klasifikuje dáta cez vrstvy, Matt Muldoon, severoamerický prezident spoločnosti ReadSpeaker, spoločnosti, ktorá vyvíja softvér pre prevod textu na reč, povedal v e-mailovom rozhovore.

„Tieto vrstvy spresňujú signál a triedia ho do zložitejších klasifikácií,“dodal. "Výsledkom je syntetická reč, ktorá znie neskutočne ako ľudská."

Ďalšou technológiou vo vývoji je Prosody Transfer, ktorá zahŕňa kombináciu zvuku jedného hlasu na prevod textu na reč so štýlom hovorenia iného, povedal Muldoon. K dispozícii je tiež prenosové učenie, ktoré znižuje množstvo trénovacích údajov potrebných na vytvorenie nového neurálneho hlasu prevodu textu na reč.

Kaplan povedal, že vytváranie reči podobnej ľudskej reči si tiež vyžaduje obrovské množstvo výpočtového výkonu. Spoločnosti vyvíjajú neurónové akceleračné čipy, čo sú vlastné moduly, ktoré fungujú v spojení s bežnými procesormi.

„Ďalšou fázou bude vloženie týchto čipov do menšieho hardvéru, ako sa to už robí v prípade kamier, keď je potrebná umelá inteligencia na videnie,“dodal. „Nebude to dlho trvať, kým bude tento typ výpočtovej schopnosti dostupný v samotných slúchadlách.“

Jednou výzvou pri vývoji reči riadenej umelou inteligenciou je, že každý hovorí inak, takže počítače nám zvyčajne ťažko rozumejú.

„Premýšľajte o prízvukoch Georgia vs. Boston vs. Severná Dakota a o tom, či je angličtina vaším primárnym jazykom alebo nie,“povedala v e-maile Monica Dema, ktorá pracuje na analytike hlasového vyhľadávania v spoločnosti MDinc. „Z globálneho hľadiska je to nákladné urobiť to pre všetky regióny Nemecka, Číny a Indie, ale to neznamená, že to tak nie je alebo sa to nedá.“

Odporúča: