Wie schon in einem vorherigen Artikel erwähnt, können mithilfe Machine Learning-getriebener Dokumentenextraktion Prozesse optimiert werden. Konkret haben Sie so etwa die Möglichkeit, Durchlaufzeiten, Kosten und Fehleranfälligkeit allesamt signifikant zu reduzieren. Und welches Unternehmen will das schon nicht?

Im Zuge dieser Prozessoptimierung anerbietet sich unter anderem die Evaluation einer Umstellung auf Early Scanning. Was das ist und wieso es empfehlenswert ist, erfahren Sie in diesem Artikel. Ergänzend sollten Sie sich mit den Anforderungen Ihres Anwendungsfalls an die Scan-Qualität auseinandersetzen.

Nun gibt es aber bei der Digitalisierung von Dokumenten noch etwas anderes zu beachten. Denn Scanning ist nicht gleich Scanning. Es gibt mehrere Möglichkeiten, ein Dokument zu digitalisieren: Konkret das Document Imaging und das Document Scanning. Für die meisten sind Scanning und Imaging zwar so was wie austauschbare Wörter, doch sie unterscheiden sich in gewisser Hinsicht. Beide haben die Digitalisierung eines Dokumentes zum Ziel, die Methoden unterschieden jedoch sich bezüglich der Verwertbarkeit in nachgelagerten Prozessen. Es ist demzufolge für Unternehmen wichtig zu verstehen, wofür sie die Dokumente digitalisieren, damit sie entsprechend die optimale Methode zur Digitalisierung wählen können. Was die Methoden definiert und welche Vor- und Nachteile sie haben, führe ich nachfolgend auf.

Was ist Document Scanning?

Document Scanning dürfte den meisten von Ihnen ein geläufiger Begriff sein beziehungsweise relativ klare Assoziationen hervorrufen. Es beschreibt den Prozess der Digitalisierung eines papierbasierten Dokuments mittels eines Scangerätes. Beim Scanning wird das Dokument in ein editierbares und transferierbares Format konvertiert. PDF ist das wohl bekannteste Dateiformat, das bei solchen Scans verwendet wird, wobei es selbst da auch noch gewisse Unterschiede im Typ gibt.

Da es sich bei dieser Konvertierungsart nicht bloss um ein Bild handelt, kann die optische Zeichenerkennung (OCR) mit hohem Erfolgsversprechen verwendet werden, um die Informationen auf dem Dokument zu erkennen. Die Dokumente können indexiert und die extrahierten Infos etwa in ein Dokumentenmanagement-System zur weiteren Berarbeitung übergeben werden.

Was ist Document Imaging?

Beim Document Imaging wird, wie der Name schon sagt, ein Dokument in ein digitales Bild umgewandelt – es wird also lediglich ein Foto vom physischen Dokument gemacht. Meist werden dabei die Dokumente zu PNG- oder JPG-Dateien konvertiert.

Die Inhalte auf dem Bild können natürlich in der Regel von blossem Auge nach wie vor gut bis sehr gut erkannt werden. Die Durchführung einer OCR ist aber hier oftmals weniger erfolgversprechend, da Bilder etwa gekrümmt, schief oder eine schlechtere Auflösung haben, wodurch wertvolles Bildgut für die Identifizierung von Zeichen verloren geht. Das bedeutet, dass das Bild zwar zugänglich ist, das Dokument jedoch nicht immer sauber ausgelesen werden kann.

Demzufolge repräsentieren Dokumente, die durch das Document Imaging digitalisiert wurden, für nachgelagerte Prozesse eine potenzielle Schwachstelle, die Automationen verringern oder gar verhindern kann.

Vor- und Nachteile der beiden Methoden

OCR-Datenextraktion zur Weiterverarbeitung der Daten

Ein wesentlicher Vorteil des Document Scannings ist der dadurch ermöglichte vielversprechende Einsatz von OCR-Software, die den Scan erkennen und ihn in eine durchsuchbare Textdatei umwandeln kann. Wenn die Dokumente aber gar nicht zur Weiterverarbeitung, sondern nur zu Archivierungszwecken gescannt werden, sollte Document Imaging total ausreichend sein.

Bessere Auffindbarkeit dank Auto-Indexierung

Beim Scanning von Dokumenten, können diese mit Tags versehen werden, die deren Auffindbarkeit erleichtert. Dokumente der gleichen Art können in Gruppen gegliedert und mit dem gleichen Tag versehen werden. Das sorgt für weniger Verwirrung und Frustration bei der Suche nach dem richtigen Dokument und kann so den Mitarbeitern Zeit und Nerven schonen.

Sensible Informationen verstecken mit Document Redaction

Beim Document Scanning kann anders als beim Imaging zusätzlich Document Redaction angewendet werden. Dabei handelt es sich um das dauerhafte Entfernen von sichtbarem Text und Grafiken aus einem Dokument. Enthält ein Dokument sensible Informationen, können diese geschwärzt und somit unlesbar gemacht werden.

Beim Document Imaging ist dies nicht möglich, was mitunter ein Nachteil sein kann, je nach vorliegendem Anwendungsfall und Kontext.

Ist Document Scanning also die bessere Lösung?

Das kann so nicht pauschal gesagt werden. Es kommt ganz drauf an, mit welcher Absicht ein Unternehmen die Dokumente digitalisieren will. Ist es nur für die platzsparende Archivierung, so eignet sich Document Imaging dafür bestens. Wird aber das Early Scanning eingeführt, um die Dokumente digital weiterverarbeiten zu können, so empfiehlt sich ganz klar das Document Scanning.

Mit letzterer Methode haben Sie eindeutig mehr Möglichkeiten bezüglich Weiterverwendung und adressieren potenzielle Schwachstellen, die Ihnen Effizienzsteigerungen limitieren.

Wollen Sie selbst die Vorteile des Document Scannings gegenüber dem Document Imaging validieren? Dann machen Sie doch einen Direktvergleich und extrahieren Sie Daten aus beiden Dateitypen mit unserer modernen OCR-Lösung. Registrieren Sie sich dazu über den nachstehenden Banner für einen 14-tägigen, kostenlosen Testaccount.