Texterkennung
Texterkennung oder auch Optische Zeichenerkennung (Abkürzung OZE, bzw. OCR von englisch Optical Character Recognition) ist ein Begriff aus dem IT-Bereich und beschreibt die automatische Texterkennung von einer gedruckten Vorlage.Ursprünglich gab es dazu eigene OZE-Schriften, die z. B. für das Bedrucken von Scheckformularen verwendet wurden. Dabei wurden die OZE-A und OZE-B für gedruckte Schriften verwendet, während die OZE-H für handgeschriebene Zeichen galt. Diese Schriftarten waren so gestaltet, dass die einzelnen Zeichen von einem OZE-Lesegerät schnell und ohne großen Rechenaufwand unterschieden werden konnten. Diese Geräte setzten sich aber gegenüber Barcodelesern nur in Teilbereichen durch, da die Fehlerhäufigkeit sehr hoch und die Leser sehr teurer waren.
Die gestiegenen Leistungen moderner Computer und verbesserte Algorithmen erlauben inzwischen auch die Erkennung von "normalen" Druckerschriftarten bis hin zu Handschriften (z.B. bei der Briefverteilung).
Table of contents |
2 Anwendung 3 Bezugsmöglichkeiten 4 Programme |
Verfahren
Die zu erkenndende Textvorlage wird per Scanner oder Videokamera in eine Bilddatei (Rastergrafik) umgewendandelt. Diese Bilddatei wird nun der Texterkennungssoftware zugeführt. Die vergleicht die in der Datei auftretenden Pixelmuster mit Mustern in einer Datenbank und gibt anschließend den Text in der gewünschten Codierung (z.b.ASCII) als Textdatei aus.
Auf diese Weise können die im Text enthaltenen Informationen von anderen Programmen weiterverarbeitet werden.
Wie nahe das Ergebnis an das Original herankommt, hängt von mehreren Faktoren ab:
- der Qualität der eingesetzten Software
- der Qualität der zugrundeliegenden Datenbank
- dem Layout und Schriftart des Originaldokumentes
- der Farbtiefe des Originales
- der Auflösung des Scans
Anwendung
- Wiedergewinnen der Textinformation um diesen mit Hilfe einer Textverarbeitung weiter zu bearbeiten und/oder elekronisch durchsuchbar zu machen
- Erkennung von relevanten Merkmalen (z.B. Postleitzahl, Vertragsnummer, Rechungsnummer) zur mechnischen(Poststrasse) oder eletronischen(Workflow-Management-System) Einsortierung des Schriftstückes
- Erkennung von Merkmalen zur Registrierung und ggf. Verfolgung von Gegenständen (z.B. Autonummern).
Bezugsmöglichkeiten
Im professionellen Umfeld hat man eine Anzahl (teilweise hochpreisiger) Anbieter zur Auswahl. Hier geht es insbesondere um treffsichere Massenverarbeitung (z.B. für die elektronische Rechnungsbearbeitung)
Im Privatbereich liegen oft den Scannern bereits entsprechende Softwarepakete bei, die den Gesamttext umwandeln und zur Weiterverarbeitung aufbereiten.
Programme
Siehe auch: Mustererkennung, Optical Mark Recognition, Unterschriftenerkennung, Spracherkennung, Iriserkennung