Čo je optické rozpoznávanie znakov (OCR)?

Obsah:

Čo je optické rozpoznávanie znakov (OCR)?
Čo je optické rozpoznávanie znakov (OCR)?
Anonim

Optické rozpoznávanie znakov (OCR) označuje softvér, ktorý vytvára digitálnu verziu tlačeného, strojom alebo rukou písaného dokumentu, ktorý môžu počítače čítať bez potreby manuálneho písania alebo zadávania textu. OCR sa vo všeobecnosti používa na naskenovaných dokumentoch vo formáte PDF, ale dokáže vytvoriť aj počítačom čitateľnú verziu textu v rámci súboru obrázka.

Čo je OCR

OCR, tiež označované ako rozpoznávanie textu, je softvérová technológia, ktorá transformuje znaky, ako sú čísla, písmená a interpunkčné znamienka (tiež nazývané glyfy) z tlačených alebo písaných dokumentov do elektronickej podoby, ktorú počítače ľahšie rozpoznávajú a čítajú. iné softvérové programy. Niektoré programy OCR to robia pri skenovaní alebo fotografovaní dokumentu digitálnym fotoaparátom a iné môžu tento proces použiť na dokumenty, ktoré boli predtým naskenované alebo odfotografované bez OCR. OCR umožňuje používateľom vyhľadávať v dokumentoch PDF, upravovať text a preformátovať dokumenty.

Image
Image
Skenovanie historických novín pomocou softvéru OCR.

Getty Images

Na čo sa používa OCR?

Pre rýchle a každodenné skenovanie nemusí byť OCR veľký problém. Ak vykonávate veľké množstvo skenovania, možnosť vyhľadávať v súboroch PDF, aby ste našli presne ten, ktorý potrebujete, môže ušetriť dosť času a funkcia OCR vo vašom programe skenera je dôležitejšia. Tu je niekoľko ďalších vecí, s ktorými OCR pomáha:

  • Automatizované spracovanie údajov a zadávanie údajov (Príklad: Systémy sledovania uchádzačov o zamestnanie pre životopisy).
  • Vyhľadávanie naskenovaných kníh.
  • Prevod rukou písaných skenov na text čitateľný počítačom.
  • Vylepšenie použiteľnosti dokumentov programami na čítanie, ktoré pomáhajú používateľom so zrakovým postihnutím.
  • Zachovanie historických dokumentov a novín a zároveň ich možnosť vyhľadávania.
  • Extrahovanie a prenos údajov do účtovných programov (Príklad: účtenky a faktúry).
  • Indexovanie dokumentov na použitie vyhľadávacími nástrojmi.
  • Rozpoznávanie ŠPZ vodiča pomocou rýchlostného radaru a softvéru kamery na červenú.
  • Syntetizátory reči pre ľudí, ktorí nevedia rozprávať – teoretický fyzik Stephen Hawking je snáď najznámejším používateľom programu na syntetizovanie reči.

Zrátané podčiarknutie

Prečo jednoducho neodfotiť, však? Pretože by ste nemohli nič upravovať ani prehľadávať text, pretože by to bol len obrázok. Naskenovaním dokumentu a spustením softvéru OCR môžete tento súbor zmeniť na niečo, čo môžete upravovať a vyhľadávať.

História OCR

Zatiaľ čo najskoršie používanie rozpoznávania textu sa datuje do roku 1914, rozsiahly vývoj a používanie technológií súvisiacich s OCR sa začalo vážne v 50. rokoch 20. storočia, konkrétne vytvorením veľmi zjednodušených písiem, ktoré sa dali ľahšie previesť na digitálne. čitateľný text. Prvé z týchto zjednodušených písiem vytvoril David Shepard a bežne je známe ako OCR-7B. OCR-7B sa dodnes používa vo finančnom priemysle pre štandardné písmo používané na kreditných a debetných kartách. V 60. rokoch začali poštové služby v niekoľkých krajinách používať technológiu OCR na výrazné zrýchlenie triedenia pošty, vrátane Spojených štátov, Veľkej Británie, Kanady a Nemecka. OCR je stále hlavnou technológiou používanou na triedenie pošty pre poštové služby na celom svete. V roku 2000 boli kľúčové znalosti limitov a možností technológie OCR použité na vývoj programov CAPTCHA používaných na zastavenie robotov a spamerov.

V priebehu desaťročí sa OCR stalo presnejším a sofistikovanejším vďaka pokroku v súvisiacich technologických oblastiach, ako je umelá inteligencia, strojové učenie a počítačové videnie. Softvér OCR dnes využíva rozpoznávanie vzorov, detekciu funkcií a dolovanie textu na rýchlejšiu a presnejšiu transformáciu dokumentov než kedykoľvek predtým.

FAQ

    Ako môžem skenovať dokumenty pomocou telefónu alebo tabletu?

    V systéme iOS otvorte aplikáciu Poznámky a vytvorte novú poznámku. Otvorte fotoaparát a potom klepnite na Skenovať dokumenty. V systéme Android otvorte Disk Google a vyberte Plus (+), potom klepnutím na Skenovať naskenujte dokumentujte pomocou telefónu.

    Ako môžem použiť OCR v aplikácii Adobe Acrobat?

    Otvorte súbor PDF obsahujúci naskenovaný obrázok a potom vyberte Tools > Edit PDF. Acrobat automaticky použije OCR, aby ste mohli upravovať text. Stačí vybrať, kde chcete vykonať úpravy, a začať písať.

    Aký je rozdiel medzi OCR a OMR?

    Optical Mark Recognition (OMR) je softvér, ktorý rozpoznáva značky na papieri, zvyčajne na bublinkovej hárku. OMR sa používa na spracovanie výsledkov skúšok, prieskumov, dotazníkov a dokonca aj volieb. Na rozdiel od OCR nedokáže OMR rozlúštiť značky na stránke, ale iba overiť, či tam značky sú.

Odporúča: