OCR-teknologi hjelper utviklingen av språkoversettelse

Aug 15, 2022 Legg igjen en beskjed

Hva er OCR?

Optisk tegngjenkjenning (OCR) refererer til prosessen med å konvertere tekstbilder til maskinlesbart tekstformat. Hvis du for eksempel skanner et skjema eller en kvittering, lagrer datamaskinen skanningen som en bildefil. Du kan ikke redigere, søke i eller telle tekst i en bildefil med et tekstredigeringsprogram. Du kan imidlertid bruke OCR til å konvertere bilder til tekstdokumenter og lagre innhold som tekstdata.

png

Hvorfor er OCR så viktig?

De fleste forretningsflyter innebærer tilgang til informasjon gjennom trykte medier. Papirskjemaer, fakturaer, skannede juridiske dokumenter og trykte kontrakter er alle en del av forretningsprosessen. Det tar mye tid og plass å lagre og administrere disse massive dokumentene. Til tross for trenden mot papirløs dokumenthåndtering, er det fortsatt utfordrende å skanne dokumenter til bilder. Prosessen krever menneskelig inngripen, er tungvint og langsom.

I tillegg kan digitalisering av dokumentinnhold føre til bildefiler med skjult tekst. Tekstbehandlere kan ikke behandle tekst i bilder på samme måte som tekstdokumenter. OCR løser dette problemet ved å konvertere tekstbilder til tekstdata som kan analyseres av annen kommersiell programvare. Du kan deretter bruke dataene til å analysere, forbedre driften, automatisere prosesser og øke produktiviteten.

7d9be6872456af033802d073206010b

Hvordan fungerer OCR?


Bildeanskaffelse

Skannere leser dokumenter og konverterer disse dokumentene til binære data. OCR-programvare analyserer det skannede bildet, og klassifiserer lyse områder som bakgrunn og mørke områder som tekst.

forbehandling

OCR-programvaren renser først bildet og fjerner feil som forberedelse til lesing. Her er noen rengjøringsteknikker som brukes til det:

Litt forskyvningskorreksjon eller skjevhet av skannede dokumenter under skanning for å fikse justeringsproblemer.

Fjern støy, fjern flekker fra digitale bilder, eller glatt ut kantene på tekstbilder.

Rydd opp i kanter og linjer i et bilde.

Skriptgjenkjenning med flerspråklig OCR-teknologi

Tekstgjenkjenning

De to hovedtypene av OCR-algoritmer eller programvareprosesser som brukes av OCR-programvare for tekstgjenkjenning er mønstertilpasning og funksjonsekstraksjon.


Mønstermatching

Mønstertilpasning skiller et bilde av et tegn (kalt en glyph) og sammenligner det med lagrede lignende glyffer. Mønstertilpasning fungerer bare hvis den lagrede tegnvarianten har en lignende font og størrelse som inndataglyfen. Denne metoden fungerer godt for skannede bilder av dokumenter som er lagt inn i kjente fonter.


Funksjonsekstraksjon

Funksjonsekstraksjon segmenterer eller dekomponerer glyfer til funksjoner som linjer, lukkede sløyfer, linjeretning og linjefokus. Den bruker deretter disse funksjonene for å finne den beste eller nærmeste matchen blant de forskjellige lagrede glyfer.


Etterbehandling

Etter analyse konverterer systemet de utpakkede tekstdataene til datastyrte filer. Noen OCR-systemer kan lage kommenterte PDF-filer som inneholder før- og etterskannede versjoner av skannede dokumenter.