AI teraz dokáže pochopiť vaše videá tak, že si ich pozriete

Obsah:

AI teraz dokáže pochopiť vaše videá tak, že si ich pozriete
AI teraz dokáže pochopiť vaše videá tak, že si ich pozriete
Anonim

Kľúčové poznatky

  • Výskumníci tvrdia, že môžu naučiť AI označovať videá sledovaním a počúvaním.
  • Systém AI sa učí reprezentovať údaje, aby zachytil koncepty zdieľané medzi vizuálnymi a zvukovými údajmi.
  • Je to súčasť úsilia naučiť AI chápať koncepty, ktoré ľudia nemajú problém s učením, ale ktoré počítače ťažko chápu.

Image
Image

Nový systém umelej inteligencie (AI) by mohol sledovať a počúvať vaše videá a označovať veci, ktoré sa dejú.

Výskumníci z MIT vyvinuli techniku, ktorá učí AI zachytávať akcie zdieľané medzi videom a zvukom. Ich metóda môže napríklad pochopiť, že akt plaču dieťaťa vo videu súvisí s hovoreným slovom „plač“vo zvukovom klipe. Je to súčasť úsilia naučiť AI, ako porozumieť konceptom, ktoré ľudia nemajú problém naučiť sa, ale ktoré počítače len ťažko chápu.

„Prevládajúca paradigma učenia, učenie pod dohľadom, funguje dobre, keď máte súbory údajov, ktoré sú dobre opísané a úplné,“povedal odborník na AI Phil Winder pre Lifewire v e-mailovom rozhovore. "Bohužiaľ, súbory údajov sú zriedka úplné, pretože skutočný svet má zlý zvyk prezentovať nové situácie."

Inteligentnejšia AI

Počítače majú problémy s vymýšľaním každodenných scenárov, pretože potrebujú spracovávať dáta a nie zvuky a obrázky ako ľudia. Keď stroj „vidí“fotografiu, musí ju zakódovať do údajov, ktoré môže použiť na vykonanie úlohy, ako je klasifikácia obrázkov. AI môže uviaznuť, keď vstupy prichádzajú vo viacerých formátoch, ako sú videá, zvukové klipy a obrázky.

"Hlavnou výzvou je, ako môže stroj zosúladiť tieto rôzne modality? Ako pre ľudí je to pre nás jednoduché," povedal Alexander Liu, výskumník z MIT a prvý autor článku na túto tému. nové vydanie. „Vidíme auto a potom počujeme zvuk idúceho auta a vieme, že ide o to isté. Ale pre strojové učenie to nie je také jednoduché.“

Liuov tím vyvinul techniku umelej inteligencie, o ktorej hovoria, že sa učí reprezentovať údaje, aby zachytil koncepty zdieľané medzi vizuálnymi a zvukovými údajmi. Pomocou týchto znalostí dokáže ich model strojového učenia identifikovať, kde sa vo videu odohráva konkrétna akcia, a označiť ju.

Nový model berie nespracované údaje, ako sú videá a ich zodpovedajúce textové titulky, a kóduje ich extrahovaním funkcií alebo pozorovaní objektov a akcií vo videu. Potom mapuje tieto dátové body v mriežke, známej ako priestor na vkladanie. Model zoskupuje podobné údaje ako jednotlivé body v mriežke; každý z týchto dátových bodov alebo vektorov je reprezentovaný samostatným slovom.

Napríklad videoklip človeka, ktorý žongluje, môže byť namapovaný na vektor označený ako „žonglovanie“.

Výskumníci navrhli model tak, aby mohol na označenie vektorov použiť iba 1 000 slov. Model sa môže rozhodnúť, ktoré akcie alebo koncepty chce zakódovať do jedného vektora, ale môže použiť iba 1 000 vektorov. Model si vyberie slová, o ktorých si myslí, že najlepšie reprezentujú údaje.

„Ak existuje video o ošípaných, model môže priradiť slovo „prasa“k jednému z 1 000 vektorov. Ak potom model počuje, ako niekto hovorí slovo „prasa“vo zvukovom klipe, na zakódovanie by to malo stále používať rovnaký vektor, “vysvetlil Liu.

Vaše videá, dekódované

Lepšie systémy označovania, ako je ten, ktorý vyvinulo MIT, by mohli pomôcť znížiť zaujatosť v AI, povedal pre Lifewire v e-mailovom rozhovore Marian Beszedes, vedúci výskumu a vývoja biometrickej firmy Innovatrics. Beszedes navrhol, aby sa dátový priemysel mohol na systémy AI pozerať z perspektívy výrobného procesu.

„Systémy akceptujú nespracované údaje ako vstup (suroviny), predspracujú ich, prehltnú, robia rozhodnutia alebo predpovede a výstupné analýzy (hotové výrobky), “povedal Beszedes. "Tento procesný tok nazývame "dátová továreň" a podobne ako iné výrobné procesy by mal podliehať kontrole kvality. Dátový priemysel musí považovať zaujatosť AI ako problém kvality.

„Z pohľadu spotrebiteľa nesprávne označené údaje sťažujú napríklad online vyhľadávanie konkrétnych obrázkov/videí,“dodal Beszedes. „So správne vyvinutou AI môžete robiť označovanie automaticky, oveľa rýchlejšie a neutrálnejšie ako s manuálnym označovaním.“

Image
Image

Model MIT má však stále určité obmedzenia. Po prvé, ich výskum sa zameral na údaje z dvoch zdrojov súčasne, ale v reálnom svete sa ľudia stretávajú s mnohými typmi informácií súčasne, povedal Liu

„Vieme, že na tento druh súboru údajov funguje 1 000 slov, ale nevieme, či sa to dá zovšeobecniť na problém v reálnom svete,“dodal Liu.

Výskumníci z MIT tvrdia, že ich nová technika prekonáva mnohé podobné modely. Ak sa dá AI vycvičiť, aby porozumela videám, možno budete môcť preskočiť pozeranie dovolenkových videí svojho priateľa a namiesto toho získať počítačom vygenerovanú správu.

Odporúča: