Čoskoro možno nebudete vedieť, že hovoríte s počítačom

👤 Autor Abigail Brown 📧 brown@technologyhumans.com.
⏱ Public 2023-12-17 07:00.
🖍 Naposledy zmenené 2025-01-24 12:23.

Kľúčové poznatky

Rýchlo sa blíži deň, keď nebudete vedieť rozlíšiť počítačom vygenerovanú reč od skutočnej.
Google nedávno predstavil LaMDA, model, ktorý by mohol umožniť prirodzenejšie konverzácie.
Produkcia ľudskej reči si tiež vyžaduje obrovské množstvo výpočtového výkonu.

Práve teraz je ľahké rozoznať, keď hovoríte s počítačom, ale to sa môže čoskoro zmeniť vďaka nedávnemu pokroku v AI.

Google nedávno predstavil LaMDA, experimentálny model, o ktorom spoločnosť tvrdí, že by mohol zvýšiť schopnosti jej konverzačných asistentov AI a umožniť prirodzenejšie konverzácie. Cieľom LaMDA je nakoniec normálne konverzovať takmer o čomkoľvek bez akéhokoľvek predchádzajúceho školenia.

Je to jeden z rastúceho počtu projektov umelej inteligencie, ktorý by vás mohol nechať premýšľať, či hovoríte s ľudskou bytosťou.

„Odhadujem, že v priebehu nasledujúcich 12 mesiacov sa používatelia začnú stretávať s týmito novými, emocionálnejšími hlasmi a zvyknú si na ne,“James Kaplan, generálny riaditeľ spoločnosti MeetKai, konverzačného virtuálneho hlasového asistenta a vyhľadávania AI. motor, povedal v e-mailovom rozhovore.

„Keď sa to stane, dnešná syntetizovaná reč bude znieť používateľom tak, ako nám dnes znie reč zo začiatku 21. storočia.“

Hlasoví asistenti s charakterom

Google LaMDA je postavený na Transformer, architektúre neurónovej siete vynájdenej spoločnosťou Google Research. Na rozdiel od iných jazykových modelov bol LaMDA Google vyškolený na skutočný dialóg.

Súčasťou výzvy na vytvorenie prirodzene znejúcej reči AI je otvorený charakter konverzácií, napísal Eli Collins z Googlu v blogovom príspevku.

„Rozhovor s priateľom o televíznej relácii by sa mohol rozvinúť do diskusie o krajine, v ktorej sa relácia natáčala, a potom sa pustiť do debaty o najlepšej regionálnej kuchyni tejto krajiny,“dodal.

S rečou robotov sa veci hýbu rýchlo. Eric Rosenblum, riadiaci partner v Tsingyuan Ventures, ktorá investuje do konverzačnej AI, povedal, že niektoré z najzákladnejších problémov v počítačom podporovanej reči sú prakticky vyriešené.

Napríklad miera presnosti porozumenia reči je už teraz extrémne vysoká v službách, ako sú prepisy vykonávané softvérom Otter.ai alebo lekárske poznámky vytvorené DeepScribe.

„Ďalšia hranica je však oveľa ťažšia,“dodal.

„Udržať si porozumenie kontextu, čo je problém, ktorý ďaleko presahuje spracovanie prirodzeného jazyka, a empatiu, ako napríklad, že počítače interagujúce s ľuďmi potrebujú pochopiť frustráciu, hnev, netrpezlivosť atď. Na oboch týchto otázkach sa pracuje, ale obe sú dosť ďaleko od uspokojivých."

Neurónové siete sú kľúčom

Na generovanie realistických hlasov spoločnosti používajú technológie, ako sú hlboké neurónové siete, čo je forma strojového učenia, ktorá klasifikuje dáta cez vrstvy, Matt Muldoon, severoamerický prezident spoločnosti ReadSpeaker, spoločnosti, ktorá vyvíja softvér pre prevod textu na reč, povedal v e-mailovom rozhovore.

„Tieto vrstvy spresňujú signál a triedia ho do zložitejších klasifikácií,“dodal. "Výsledkom je syntetická reč, ktorá znie neskutočne ako ľudská."

Ďalšou technológiou vo vývoji je Prosody Transfer, ktorá zahŕňa kombináciu zvuku jedného hlasu na prevod textu na reč so štýlom hovorenia iného, povedal Muldoon. K dispozícii je tiež prenosové učenie, ktoré znižuje množstvo trénovacích údajov potrebných na vytvorenie nového neurálneho hlasu prevodu textu na reč.

Kaplan povedal, že vytváranie reči podobnej ľudskej reči si tiež vyžaduje obrovské množstvo výpočtového výkonu. Spoločnosti vyvíjajú neurónové akceleračné čipy, čo sú vlastné moduly, ktoré fungujú v spojení s bežnými procesormi.

„Ďalšou fázou bude vloženie týchto čipov do menšieho hardvéru, ako sa to už robí v prípade kamier, keď je potrebná umelá inteligencia na videnie,“dodal. „Nebude to dlho trvať, kým bude tento typ výpočtovej schopnosti dostupný v samotných slúchadlách.“

Jednou výzvou pri vývoji reči riadenej umelou inteligenciou je, že každý hovorí inak, takže počítače nám zvyčajne ťažko rozumejú.

„Premýšľajte o prízvukoch Georgia vs. Boston vs. Severná Dakota a o tom, či je angličtina vaším primárnym jazykom alebo nie,“povedala v e-maile Monica Dema, ktorá pracuje na analytike hlasového vyhľadávania v spoločnosti MDinc. „Z globálneho hľadiska je to nákladné urobiť to pre všetky regióny Nemecka, Číny a Indie, ale to neznamená, že to tak nie je alebo sa to nedá.“

Odporúča:

Čoskoro možno nebudete vedieť, že hovoríte s počítačom

Obsah:

Kľúčové poznatky

Hlasoví asistenti s charakterom

Neurónové siete sú kľúčom

Odporúča:

Čoskoro možno zistíte, že žonglovanie s aplikáciami medzi zariadeniami so systémom Android bude jednoduchšie

Čoskoro sa možno budete môcť dostať do Metaverse bez náhlavnej súpravy

Londýnčania budú možno čoskoro musieť platiť zakaždým, keď použijú svoje auto

Váš smartfón sa možno bude môcť čoskoro sám opraviť

Vaša náhlavná súprava Oculus VR teraz počúva, keď hovoríte

Ako sa overiť na TikTok

Ako preniesť fotografie z fotoaparátu do iPhonu

Tipy, ako získať viac basov v aute

Ako vám VR môže pomôcť získať kondíciu

Ako zrušiť Xbox Game Pass

Ako zabezpečiť svoj prehliadač Firefox

Získajte rýchlejší prístup ku gramatike v Dokumentoch Google

Na nájdenie problémov použite Apple Hardware Test (AHT)

Ako inovovať Nainštalujte OS X El Capitan do svojho Macu

Znížte náklady na úložisko iCloud prostredníctvom fotografií s viacerými knižnicami fotografií

Pokročilý model Razer Blade 15 je teraz k dispozícii

Lenovo predstavuje nové herné počítače Legion

Nie, nepotrebujeme vždy zapnuté displeje v každom inteligentnom zariadení

Apple Brass údajne ututlal hacknutie iPhonu

9 najlepších NVMe SSD z roku 2022