Was genau ist eigentlich OCR?

04.12.2018 - Eine erfolgreiche OCR-Verarbeitung mit guter Erkennung ist eine wichtige Voraussetzung für den gesamten Eingangsprozess. OCR-Software erkennt aus Bildpunkten auf gescannten Papieren, PDFs und Bildern die entsprechenden Buchstaben und wandelt so den Inhalt dieser Dokumente in bearbeitbare, digitale Texte um.

OCR als Grundlage

Software zur Dokumenteneingangsverarbeitung nutzt OCR, um Textinhalte auf Geschäftsbelegen zu digitalisieren. Die erkannten Daten werden automatisch den vorhandenen Daten im SAP-ERP-System zugeordnet und mit diesen verglichen. So erkennt das System, ob z.B. die Mengenangabe auf einer Rechnung mit den Mengen in der in SAP hinterlegten Bestellung übereinstimmt.

Optimierung der OCR-Ergebnisse

Neben der Konfiguration der OCR-Engine ist für die OCR-Erkennung die Qualität des Eingangsmaterials ausschlaggebend über das Niveau der Erkennung. Die OCR stellt bestimmte, verschiedene Anforderungen an ein zu verarbeitendes Bilddokument.

  • Auflösung
    Die Auflösung definiert die Anzahl an Punkten für eine definierte Längeneinheit und wird in Dots per Inch gemessen. Je höher die Auflösung, desto exakter sind Formen und Kanten im Dokument dargestellt, umso höher sind jedoch auch die Scandauer sowie die Dateigröße der resultierenden Datei. Als "goldener" Wert haben sich 300 DPI als optimale Scanauflösung etabliert. Bei Dokumenten, die diesen Wert nicht erreichen können, z.B. bei Faxen, kann durch Interpolation die Auflösung erhöht werden. Je nach Sprache kann die optimale Auflösung variieren.

Mit einer zu geringen Auflösung mutet ein „B“ wie eine „8“ an.

tangro nutzt eine OCR-Software für die Texterkennung von Dokumenten.
  • Eindeutiger Hintergrund
    Um den Text zu extrahieren, muss die OCR-Engine die Nutzdaten vom Bildhintergrund unterscheiden können. Voraussetzung dafür ist eine eindeutige Hintergrundfarbe. Durch den Einsatz von sauberem, weißem Papier sowie digitalen Optimierungsverfahren kann diese Anforderung erfüllt werden. Punkte, Flecken, Lochmarken und andere „Fremdkörper“ auf dem Bild erschweren die OCR-Erkennung. Häufig entstehen diese durch Verschmutzungen auf dem Scankörper oder Knicke im Papier. Besonders auffällig zeigt sich dies auf Faxen, bei denen häufig größere Flächen betroffen sind. Durch digitale Optimierung lassen sich diese Störungen entfernen. Das ebenfalls beim Scannen auftretende Bildrauschen kann ebenfalls zuverlässig korrigiert werden.
  • Schärfe und Kontrast
    Schärfe definiert die Unterscheidbarkeit von Details in einem Bild. Für die OCR ist dies ein essentielle Eigenschaft. Großen Anteil am Schärfegrad eines Dokuments hat die digitale Nachbearbeitung, durch die der Schärfegrad deutlich erhöht werden kann. Wichtig ist hier die Akutanz, d.h. die Kantenschärfe. Eine hohe Kantenschärfe erleichtert die Erkennung von Texten während der OCR-Verarbeitung. Helligkeitsunterschiede in einem Bild werden Kontrast genannt. Ein hoher Kontrastumfang liefert eine hohe Schärfe. Besonders ist darauf zu achten, die Hintergrundfarbe in einem hohen Kontrast zur Textfarbe zu verwenden.
Zum Seitenanfang