Unzählige Dokumente wie etwa Bestellungen, Lieferscheine und Rechnungen werden tagtäglich ausgestellt. Diese Dokumente müssen anschliessend auf irgendeine Art und Weise in IT-Systemen von Unternehmen erfasst werden. Heutzutage bestehen aufgrund der technologischen Entwicklung auch effiziente Methoden, diese maschinenlesbar und in strukturierter Form an nachgelagerte Prozesse weiterzugeben. Bei Parashift nutzen wir dazu hauptsächlich Machine Learning. Denn diese Art von Technologie erlaubt es uns, die notwendigen menschlichen Eingriffe auf ein Minimum zu reduzieren. Dies bietet zahlreiche Vorteile. Denn damit kann nicht nur Zeit und Geld gespart werden, sondern können auch doch eher eintönige und mühsame Aufgaben vermieden werden. Wie Sie sich sicherlich gut vorstellen können, sah die Dokumentenerfassung vor nicht allzu langer Zeit aber noch ganz anders aus. Von den ersten Erfindungen bis hin zu den jüngsten Entwicklungen sollen Sie nachstehend einen Eindruck erhalten, wie sich die moderne Dokumentenverarbeitung über die Jahre weiterentwickelt hat.
Anfänge und erste Versuche
Wissenschaftler haben schon immer davon geträumt, die menschlichen Fähigkeiten mithilfe von Maschinen nachzubilden. Dazu gehören unter anderem auch das Lesen und Kategorisieren des Gelesenen. Die Ursprünge der optischen Zeichenerkennung (engl. optical character recognition oder auch kurz OCR) gehen auf das Jahr 1870 zurück, als Charles R. Carey, ein amerikanischer Erfinder, den Retina-Scanner erfand – ein Bildübertragungssystem, das ein Mosaik von Fotozellen verwendet. Zwei Jahrzehnte später gab die Entwicklung eines sukzessiven Bild-Scanners vom deutschen Erfidner Paul Nipkow den entscheidenden Impuls für heutige Fernsehgeräte oder Lesemaschinen und damit für die Schriftzeichenerkennung.
Die ersten OCR-Geräte waren aber in erster Linie für blinde und sehbehinderte Personen gedacht, wie etwa das in 1912 entwickelte Optophone des irischen Erfinders Dr. Edmund Fournier d’Albe. Das Optophone war ein Scanner, der, wenn er über eine gedruckte Seite bewegt wird, Töne erzeugt, die bestimmten Buchstaben oder Zeichen entsprechen, sodass sie von einer blinden Person interpretiert werden können.
Erst in den 50er Jahren und mit der Erfindung des Optacon wurden die möglichen Anwendungen, die OCR in der Geschäftswelt haben kann, erkannt. Von diesem Zeitpunkt an, lag auch der Fokus der Entwicklung neu auf den Anwendungsmöglichkeiten von OCR für Unternehmen.
Die ersten OCR-Geräte
1950 schritt die technologische Revolution mit hoher Geschwindigkeit voran, was steigende Datenmengen zur Folge hatte und somit auch die elektronische Datenverarbeitung zunehmend wichtiger wurde. Damals wurden Daten noch durch Lochkarten eingegeben und anfänglich von Hand bearbeitet. Die Verarbeitung zunehmender Datenmengen verlangte jedoch nach einer kostengünstigen Alternative zur manuellen Bearbeitung. Zur gleichen Zeit wurde die Technologie für maschinelles Lesen ausreichend reif für kommerzielle Anwendungen. Das resultierte darin, dass OCR-Geräte Mitte der 1950er Jahre in die Massenproduktion gingen.
Das erste echte OCR-Gerät wurde 1954 bei der amerikanischen Zeitschrift Reader’s Digest installiert. Mit diesem Gerät wurden Verkaufsberichte, die mit der Schreibmaschine verfasst wurden, in Lochkarten konvertiert, die dann wiederum von Computern eingelesen und durchsucht werden konnten. Noch bestand keine Möglichkeit, nur die relevantesten Daten zu extrahieren und so wurden immer die ganzen Dokumente eingelesen. Zudem waren die Geräte doch noch recht sperrig und teuer.
Kommerzialisierung und erste Automatisierung
Die in der Zeit von 1960 bis 1965 erschienenen kommerziellen OCR-Systeme können als die erste OCR Generation bezeichnet werden. Diese Generation ermöglichte es erste wenige Schritte im Prozess der Dokumentenverarbeitung zu automatisieren. Die ersten Geräte hatten aber noch eine sehr eingeschränkte Anzahl Symbole und Buchstaben, die eingelesen werden konnten. Und da die Symbole speziell für maschinelles Lesen konzipiert wurden, sahen die ersten Symbole auch noch nicht sehr natürlich aus.
Mit der Weiterentwicklung der Geräte kamen dann die ersten Multifont-Geräte auf, die bis zu zehn verschiedene Schriftarten lesen konnten. Der IBM 1418 Optical Character Reader ist ein repräsentatives Modell für diese Generation. Diese Geräte funktionierten mit sogenanntem Template Matching, was eben oben genannte Automatisierungen ermöglichte. Die OCR-Geräte konnten nun nämlich trainiert werden, nur vordefinierte Ausschnitte der Dokumente einzulesen. Dadurch wurde schon ein grosses Stück Arbeit durch die OCR-Geräte abgenommen, das zuvor von Menschenhand erledigt werden musste.
Mitte der 1960er und Anfang der 1970er Jahre erschien dann die 2. OCR-Geräte Generation. Diese Systeme waren in der Lage, normale, maschinengedruckte Zeichen zu erkennen und verfügten auch über Fähigkeiten zur Erkennung von handgeschriebenen Zeichen. Der Zeichensatz bei handgeschriebenen Zeichen beschränkte sich jedoch auf Ziffern und einige wenige Buchstaben und Symbole.
Das berühmte und auch erste System dieser Art war der IBM 1287, der 1965 auf der Weltausstellung in New York präsentiert wurde. Weitere technologische Fortschritte konnten bei Toshiba beobachtet werden, die in der gleichen Zeit die erste automatische Briefsortiermaschine für Postleitzahlen auf den Markt gebracht haben. Ebenfalls in der gleichen Zeitperiode gelang es Hitachi erstmals, ein OCR-Gerät mit hoher Leistung für niedrige Kosten herzustellen.
Ein weiterer Meilenstein waren die Fortschritte in der Standardisierung. So wurde 1968 die erste optisch maschinenlesbare Schriftart «OCR-A» vom Schweizer Adrian Frutiger entwickelt. Diese Schrift war stark stilisiert und so gestaltet, dass sie die optische Erkennung erleichterte, aber für den Menschen noch lesbar blieb. Ein paar Jahre später entwarf Frutiger eine neue Schriftart, «OCR-B», die den Vorgänger ablöste. Grund für die neue Schrift war die geringe Beliebtheit in Europa und die in der Zwischenzeit gemachten technologischen Fortschritte in der optischen Zeichenerkennung. Diese Schriftart ähnelt daher im Vergleich zur OCR-A sehr viel stärker einer normalen, serifenlosen Druckschrift. Sie wurde dann 1973 von der International Organization for Standardization, kurz ISO, zum weltweiten Standard erklärt. Es wurden einige Versuche unternommen, die beiden Schriften zu einem Standard zusammenzuführen, aber stattdessen wurden Geräte entwickelt, die beide Standards lesen konnten.
Technologischer Fortschritt und die Kurzweil Reading Machine
Für die 3. Generation von OCR-Systemen, die Mitte der 1970er Jahre auf den Markt kam, bestand die grösste Herausforderung im Erkennen von Dokumenten mit schlechter Qualität und grossen gedruckten und handgeschriebenen Zeichensätzen.
Durch signifikante Fortschritte in der Hardware-Technologie konnten niedrigere Kosten und mehr Leistung der Geräte erzielt werden. Obwohl immer ausgeklügeltere OCR-Maschinen auf den Markt kamen, waren einfache OCR-Geräte immer noch vielfach im Einsatz. In der Zeit, bevor die Personal Computer (PCs) und Laserdrucker den Bereich der Textproduktion zu dominieren begannen, war das Tippen eine besondere Nische für OCR. Der einheitliche Druckabstand und die geringe Anzahl von Schriftarten machten einfach gestaltete OCR-Geräte sehr nützlich. Grobe Entwürfe konnten auf gewöhnlichen Schreibmaschinen erstellt und über ein OCR-Gerät zur Endbearbeitung in den Computer eingespeist werden. Auf diese Weise konnten Textverarbeitungsprogramme, die zu dieser Zeit eine kostspielige Ressource waren, von mehreren Personen genutzt und somit hohe Anschaffungskosten vermieden werden.
Zu dieser Zeit gelang es dem Forscher Raymond Kurzweil die erste kommerzielle Lesemaschine, die Druckschrift in gesprochene Worte übersetzen kann, auf den Markt zu bringen: Die Kurzweil Reading Machine. Ein Meilenstein in der Geschichte. Denn erstmals gab es eine kommerzielle Lösung, die es Blinden erlaubte zu lesen.
Unterscheidung OCR Engine und OCR Software
Es gibt übrigens noch eine sehr wichtige Unterscheidung, wenn wir von OCR sprechen. Denn die Technologie, die die eigentliche Identifizierung der Zeichen vornimmt und die Koordinaten der gefundenen Werte zurückspielt, nämlich die OCR Engine, ist nicht mit der Technologie zu verwechseln, welche die Bilder beziehungsweise Dokumente in Layouts aufteilt, die Inhalte bündelt, diese interpretiert und in strukturierter Form zurückgibt. Obwohl es auch einige Engines gibt, die Buchstaben, Spaces, Zahlen und Symbole zu Blöcken formieren, ist das im Normalfall Teil der OCR Software. So auch bei Parashift. Die Engines, die wir brauchen fokussieren sich lediglich auf das Erkennen von Text. Dazu werden in der Regel als allererstes Linien eruiert, die dann in einzelne Wörter oder Zeichen runtergebrochen werden. Einige der Engines bedienen sich Wörterbücher, um die Qualität zu verbessern. Alles was nach dem Parsen des Textes folgt, fällt unter den Aufgabenbereich der OCR Software. Nun aber wieder zurück zum historischen Teil dieses Artikels…
OCR-Software und Machine Learning-basierte OCR
Obwohl OCR-Geräte bereits in den 1950er Jahren kommerziell verfügbar wurden, waren bis 1986 weltweit nur einige tausend Systeme verkauft worden. Der Hauptgrund dafür waren die Kosten der Geräte. Als jedoch die Hardware billiger wurde und OCR-Systeme als Softwarepakete erhältlich wurden, stiegen auch die Verkaufszahlen erheblich.
Fortschritte in der Computertechnologie haben es möglich gemacht, den Erkennungsteil der OCR in Softwarepaketen, die auf PCs funktionieren, zu integrieren. OCR-Software hatte jedoch auch Nachteile, insbesondere was die Geschwindigkeit und die Art der gelesenen Zeichensätze betrifft. Heutzutage werden wöchentlich mehrere tausend OCR-Systeme verkauft. Zusätzlich sind die Kosten für Omnifont OCR-Geräte Jahr für Jahr gesunken, was dazu geführt hat, dass OCR-Geräte den Weg in den Mainstream gefunden haben.
Vor wenigen Jahren kamen dann die ersten Versuche, OCR mit Machine Learning zu kombinieren. 2013 wurde die berühmte MNIST Datenbank (Modified National Institute of Standards and Technology database) begründet. Diese Datenbank besteht aus handgeschriebenen Buchstaben und Zahlen und wird für Trainings im Bereich Machine Learning verwendet. Damit hat die Dokumentenerfassung den Schritt in die neuste digitale Revolution gemacht und der Fokus liegt seit diesem Zeitpunkt auf der kompletten Automatisierung. Und Forschungsteams verzeichnen hier ziemlich vielversprechende Erfolge, wobei auch klar hervorgehoben werden muss, dass wir erst am Anfang stehen und es nach wie vor zahlreiche technische Herausforderungen zu meistern gilt.
Template-basierte OCR vs. Machine Learning-basierte OCR
Die Template-basierte beziehungsweise Vorlagen-basierte OCR ist zwar schon einiges älter als die Machine Learning-basierte OCR, doch die Ergebnisse der Template Recognition sind meist ziemlich gut und konsistent, was bedeutet, dass Grossteile der manuellen Arbeit automatisiert werden kann. Die Automatisierung bedingt aber auch extrem viel vorhergehende Konfiguration für jedes zu extrahierende Feld. Dazu muss vorab der genaue Ort auf dem Dokument, wo die Information zu finden ist und wie es die Information extrahieren soll, definiert werden. Im Gegensatz zur kompletten Automatisierung, die mit Machine Learning-basierten OCR möglich ist, kann dies also einen grossen und sehr kostspieligen Nachteil darstellen.
Ein bereits angedeuteter weiterer wesentlicher Nachteil der Template-basierten OCR ist, dass vom Template abweichende Dokumentstrukturen nicht funktionieren. Sprich, sobald sich das Dokument verändert, seien es auch nur geringfügige Layout-Änderungen, muss die Machine wieder neu konfiguriert werden, was äusserst zeitintensiv ist. Zudem ist das Setup der Templates auch nicht ganz simpel und benötigt meistens externe Fachleute. Deshalb kann das erfolgreiche Management von Templates sehr schnell sehr kostenintensiv und zu einer grossen Herausforderung werden.
Eine Lösung für diese Probleme bieten eben Machine Learning-basierte OCR-Systeme. Die Machine Learning Algorithmen werden mithilfe von Trainingssets, also Datensätzen für Trainingszwecke, trainiert. Anschliessend wird ein Validierungsset verwendet, um die entstandenen Modellstrukturen zu optimieren und gegebenenfalls einige Design-Parameter anzupassen. Schlussendlich wird ein Testset verwendet, um die Performance der Algorithmen zu messen und deren Eignung zur Generalisierung zu prüfen. Dabei werden beispielsweise Genauigkeit, Sensitivität oder Schnelligkeit des erzeugten Systems überprüft. Falls die Resultate nicht zufriedenstellend sind, müssen die Algorithmen mit neuen Trainingssets weiter optimiert werden.
Aufgrund der Funktionsweise der Algorithmen von Machine Learning-basierten OCR-Lösungen ergeben sich wesentliche Vorzüge gegenüber Template-basierten OCR-Lösungen. Sie unterscheiden sich dadurch, dass sie mehr Flexibilität bieten und keine Templates brauchen. Dadurch fallen in Ihrer Unternehmung Aktivitäten wie die Wartung, Beratung und Koordination in Bezug auf die Templates weg, was für Sie signifikant geringere Kosten bedeutet. Durch fortlaufendes Training der Algorithmen auf allen Kundendokumenten wird zudem auch die Performance kontinuierlich verbessert, was über die Zeit wiederum zu weniger menschlichen Eingriffen und zusätzlich tieferen Kosten führt. Und separate Grossprojekte zur Extraktionsverbesserungen, die mit zunehmender Extraktionsqualität schnell exponentiell mehr Kosten generieren, haben Sie auch nicht.
Machine Learning-basierte OCR-Lösungen bieten also zahlreiche Vorteile gegenüber Template-basierten OCR-Lösungen. Nichtsdestotrotz ist noch einmal festzuhalten, dass Templates äusserst genau sein können. Sobald aber verschiedene Layouts und Dokumentänderungen ins Spiel kommen, sind Machine Learning-basierte OCR-Lösungen die klaren Gewinner.
Jetzt testen!
Überzeugen Sie sich doch selbst vom Potenzial Machine Learning-getriebener OCR und laden Sie bei uns diverse Testdokumente (ACHTUNG: aktuell verarbeiten wir nur Dokumente des Einkaufs: Angebot, Bestellung, Auftragsbestätigung, Lieferschein, Pro-Forma Rechnung, Rechnung, Quittung, Gutschrift und Mahnung) hoch.
PS. An Werktagen validieren wir übrigens zwischen 08:00 und 17:00 Uhr die Extraktionsergebnisse innerhalb von 3 Stunden. Mit Parashift erhalten Sie also herausragende Datenqualität und müssen nicht unnötig Ressourcen für Aufgaben binden, die nicht direkter Teil Ihr Kernbusiness sind.