AI teraz dokáže pochopiť vaše videá tak, že si ich pozriete

2025 Autor: Abigail Brown | [email protected]. Naposledy zmenené: 2025-01-24 12:22

Kľúčové poznatky

Výskumníci tvrdia, že môžu naučiť AI označovať videá sledovaním a počúvaním.
Systém AI sa učí reprezentovať údaje, aby zachytil koncepty zdieľané medzi vizuálnymi a zvukovými údajmi.
Je to súčasť úsilia naučiť AI chápať koncepty, ktoré ľudia nemajú problém s učením, ale ktoré počítače ťažko chápu.

Nový systém umelej inteligencie (AI) by mohol sledovať a počúvať vaše videá a označovať veci, ktoré sa dejú.

Výskumníci z MIT vyvinuli techniku, ktorá učí AI zachytávať akcie zdieľané medzi videom a zvukom. Ich metóda môže napríklad pochopiť, že akt plaču dieťaťa vo videu súvisí s hovoreným slovom „plač“vo zvukovom klipe. Je to súčasť úsilia naučiť AI, ako porozumieť konceptom, ktoré ľudia nemajú problém naučiť sa, ale ktoré počítače len ťažko chápu.

„Prevládajúca paradigma učenia, učenie pod dohľadom, funguje dobre, keď máte súbory údajov, ktoré sú dobre opísané a úplné,“povedal odborník na AI Phil Winder pre Lifewire v e-mailovom rozhovore. "Bohužiaľ, súbory údajov sú zriedka úplné, pretože skutočný svet má zlý zvyk prezentovať nové situácie."

Inteligentnejšia AI

Počítače majú problémy s vymýšľaním každodenných scenárov, pretože potrebujú spracovávať dáta a nie zvuky a obrázky ako ľudia. Keď stroj „vidí“fotografiu, musí ju zakódovať do údajov, ktoré môže použiť na vykonanie úlohy, ako je klasifikácia obrázkov. AI môže uviaznuť, keď vstupy prichádzajú vo viacerých formátoch, ako sú videá, zvukové klipy a obrázky.

"Hlavnou výzvou je, ako môže stroj zosúladiť tieto rôzne modality? Ako pre ľudí je to pre nás jednoduché," povedal Alexander Liu, výskumník z MIT a prvý autor článku na túto tému. nové vydanie. „Vidíme auto a potom počujeme zvuk idúceho auta a vieme, že ide o to isté. Ale pre strojové učenie to nie je také jednoduché.“

Liuov tím vyvinul techniku umelej inteligencie, o ktorej hovoria, že sa učí reprezentovať údaje, aby zachytil koncepty zdieľané medzi vizuálnymi a zvukovými údajmi. Pomocou týchto znalostí dokáže ich model strojového učenia identifikovať, kde sa vo videu odohráva konkrétna akcia, a označiť ju.

Nový model berie nespracované údaje, ako sú videá a ich zodpovedajúce textové titulky, a kóduje ich extrahovaním funkcií alebo pozorovaní objektov a akcií vo videu. Potom mapuje tieto dátové body v mriežke, známej ako priestor na vkladanie. Model zoskupuje podobné údaje ako jednotlivé body v mriežke; každý z týchto dátových bodov alebo vektorov je reprezentovaný samostatným slovom.

Napríklad videoklip človeka, ktorý žongluje, môže byť namapovaný na vektor označený ako „žonglovanie“.

Výskumníci navrhli model tak, aby mohol na označenie vektorov použiť iba 1 000 slov. Model sa môže rozhodnúť, ktoré akcie alebo koncepty chce zakódovať do jedného vektora, ale môže použiť iba 1 000 vektorov. Model si vyberie slová, o ktorých si myslí, že najlepšie reprezentujú údaje.

„Ak existuje video o ošípaných, model môže priradiť slovo „prasa“k jednému z 1 000 vektorov. Ak potom model počuje, ako niekto hovorí slovo „prasa“vo zvukovom klipe, na zakódovanie by to malo stále používať rovnaký vektor, “vysvetlil Liu.

Vaše videá, dekódované

Lepšie systémy označovania, ako je ten, ktorý vyvinulo MIT, by mohli pomôcť znížiť zaujatosť v AI, povedal pre Lifewire v e-mailovom rozhovore Marian Beszedes, vedúci výskumu a vývoja biometrickej firmy Innovatrics. Beszedes navrhol, aby sa dátový priemysel mohol na systémy AI pozerať z perspektívy výrobného procesu.

„Systémy akceptujú nespracované údaje ako vstup (suroviny), predspracujú ich, prehltnú, robia rozhodnutia alebo predpovede a výstupné analýzy (hotové výrobky), “povedal Beszedes. "Tento procesný tok nazývame "dátová továreň" a podobne ako iné výrobné procesy by mal podliehať kontrole kvality. Dátový priemysel musí považovať zaujatosť AI ako problém kvality.

„Z pohľadu spotrebiteľa nesprávne označené údaje sťažujú napríklad online vyhľadávanie konkrétnych obrázkov/videí,“dodal Beszedes. „So správne vyvinutou AI môžete robiť označovanie automaticky, oveľa rýchlejšie a neutrálnejšie ako s manuálnym označovaním.“

Model MIT má však stále určité obmedzenia. Po prvé, ich výskum sa zameral na údaje z dvoch zdrojov súčasne, ale v reálnom svete sa ľudia stretávajú s mnohými typmi informácií súčasne, povedal Liu

„Vieme, že na tento druh súboru údajov funguje 1 000 slov, ale nevieme, či sa to dá zovšeobecniť na problém v reálnom svete,“dodal Liu.

Výskumníci z MIT tvrdia, že ich nová technika prekonáva mnohé podobné modely. Ak sa dá AI vycvičiť, aby porozumela videám, možno budete môcť preskočiť pozeranie dovolenkových videí svojho priateľa a namiesto toho získať počítačom vygenerovanú správu.

Odporúča:

AI teraz dokáže pochopiť vaše videá tak, že si ich pozriete

Obsah:

Kľúčové poznatky

Inteligentnejšia AI

Vaše videá, dekódované

Odporúča:

Váš fotoaparát Chromebooku teraz dokáže viac

Roombas teraz dokáže rozpoznať vianočné stromčeky a voľné ponožky

ICloud pre Windows teraz dokáže zobrazovať vaše obrázky najvyššej kvality

Nová technológia umožní modulom gadget pochopiť vaše konverzácie

10 zábavných trikov, o ktorých ste nevedeli, že ich dokáže váš iPad

7 najlepších 4K Blu-Ray prehrávačov roku 2022

Prečo by používatelia prehliadača Chrome mali vyskúšať Microsoft Edge

4 najlepšie digitálne konvertory roku 2022

Ako zmeniť používateľské meno pre Mac

Ako opraviť port PS5 HDMI

Sprievodca riešením problémov pre chyby Mscoree.dll

Prečo by sa 14-palcový iPad Pro perfektne spároval s iPadOS 16

Súbor RPM (čo to je a ako ho otvoriť)

Čo je príkaz pre počítače?

Ako skontrolovať počet slov v Dokumentoch Google

Ako to opraviť, keď Android File Transfer nefunguje na Macu

Ako získať iOS 14 na svojom iPhone

Nest Audio: veľká inovácia, menej súkromia

Pozemní cestujúci nastúpte na letecký simulátor spoločnosti Microsoft

Možnosti ohrievača jedla do auta