master-data

In der Vergangenheit war es üblich, dass Stammdaten in einer Extraktionsplattform integriert waren. Das birgt aber so einige Nachteile, die mit einer intelligenten Lösung vermieden werden können. Moderne OCR-Lösungen können erkennen, ob es sich bei einer Nummer etwa um eine Mehrwertsteuer-Nummer, Postleitzahl oder IBAN handelt. Als hilfestellende Analogie kann ein gängiger Passant auf der Strasse genommen werden, dem eine Rechnung zur Interpretation ausgehändigt wird. Angenommen er kann lesen, dann kann dieser mit sehr hoher Wahrscheinlichkeit sagen, was die Adresse des Lieferanten, dessen IBAN und Postleitzahl ist. Herkömmliche OCR-Lösungen, die mit einem Stammdaten-Abgleich arbeiten, könnten das nicht. Was die Nachteile von diesen Lösungen sind und wieso Stammdatenhandling nicht in eine Extraktionsplattform gehört, erläutere ich Ihnen nachfolgend.

Wie der klassische Ansatz funktioniert

Daten werden von einer meistens auf Dokumente aus E-Mails, gescannten Belege und PDFs ausgelegten OCR-Lösung erkannt und dann an das ERP-System oder DMS-System weitergegeben, je nachdem wo der digitale Workflow abgelegt wird. Nachdem die Daten vom Workflow freigegeben wurden, werden sie schlussendlich vom DMS archiviert.

Die klassischen OCR-Systeme brauchen die Stammdaten oft, um in diesem Prozess überhaupt den Lieferanten zu finden. Sie analysieren alle Textbausteine eines Dokumentes und vergleichen jeden davon gegen die Stammdaten beziehungsweise schauen, ob es zu einer Übereinstimmung kommt. Je nach Match wird die Übereinstimmung als hoch oder tief eingestuft. Stimmen etwa die Mehrwertsteuer-Nummer und die Postleitzahl des eingescannten Dokumentes mit den Stammdaten eines Lieferanten in der Datenbank überein, so wird die Übereinstimmung als hoch eingestuft werden.

Die Stammdaten gehören also klassischerweise nicht ins OCR-System, weil sie dort Sinn ergeben, sondern weil die Systeme anders gar nicht in der Lage wären, Lieferanten und Sender sauber zu erkennen und extrahieren. Die klassische Methode mit dem Stammdatenabgleich ist nicht somit auch keineswegs intelligent, sie vergleicht nur clever. Während dem sie relativ gut funktioniert und mehr oder weniger verlässlich ist, hat sie aber auch so ihre Schwachstellen.

Nachteile der OCR-Lösungen mit integriertem Stammdatenhandling

Klassische OCR-Lösungen funktionieren reibungslos, solange die Stammdaten gut gepflegt und ständig aktualisiert werden. Doch selbst bei perfekter Pflege der Stammdaten kann es zu Problemen kommen.

Kommt eine Rechnung eines Lieferanten, der noch nicht in den Stammdaten erfasst ist, wird das Matching nicht funktionieren können. Das heisst, das System findet entweder kein übereinstimmendes Resultat oder es gibt irgendein falsches Resultat aus.

Bei Änderungen der Stammdaten kann es ebenso zu Komplikationen kommen. Hat der Lieferant seine Adresse geändert und in den Stammdaten wurde dies nicht aktualisiert, wird sehr wahrscheinlich auch keine Übereinstimmung gefunden werden können.

Was das Matching einzelner Positionsdaten anbelangt, müssen die jeweiligen Artikelnummern, die auf der Rechnung sind, ins System eingepflegt werden. Hat der Artikel aber intern eine andere Artikelnummer, so muss die Artikelnummer des Lieferanten bei der internen Artikelnummer hinterlegt werden. Wenn der Lieferant nun seine Artikelnummern ändert, dann erkennt das System nicht, dass es sich um die alten, hinterlegten Artikelnummern handelt und wird keinen Match finden. Sie sehen, das Ganze ist extrem pflegeintensiv.

Was intelligente OCR-Lösungen auszeichnet

Zurück zu unseren eingangs gebrachten Analogie. Eine wildfremde Person kann zwar auf einer Rechnung erkennen, welches die Adresse ist, aber sie weiss nicht, ob der Lieferant zulässig ist oder tatsächlich auch dort seinen Sitz hat. So können moderne, intelligente OCR-Lösungen von Dokumenten erkennen, wie das Leute auf der Strasse ebenfalls tun. Die darauffolgende Interpretation, ob die Daten gut oder schlecht sind, kann von einem wildfremden Menschen nicht gemacht werden. Die Parashift Plattform kann dies ebenfalls nicht. Denn die Geschäftslogik und Regeln sind nicht wie bei der herkömmlichen OCR noch in der OCR-Lösung integriert, da sie nicht notwendig sind. Unsere Plattform erkennt auch ohne hinterlegte Logik und Business Rules, ob es sich bei einer Nummer um beispielsweise eine IBAN oder eine Mehrwertsteuer-Nummer handelt und gibt die Daten in entsprechendem strukturierten Format aus. Sprich, Parashift sucht aktiv nach der Adresse und interpretiert diese.

Bei Rechnungen neuer Lieferanten kann so von der Adresse über die einzelnen Positionsdaten bis zu der Mehrwertsteuer-Nummer alles ohne Stammdaten erkannt und verlässlich ausgelesen werden. Auch bei Änderungen der Adresse oder der IBAN liefern Machine Learning-basierte OCR-Lösungen verwertbare Metadaten. Folglich kommt es auch nicht zu Problemen beim Matching, wenn Stammdatenänderungen oder Rechnungen neuer Lieferanten vorliegen. Und genau deswegen gehören Stammdaten nicht in eine OCR Software. Sie werden schlicht nicht gebraucht und erhöhen lediglich die Transaktionskosten.

Wenn Sie selbst klassische OCR-Lösungen mit Stammdaten-Matching nutzen und Sie es sich leid sind, so viel Extraaufwand zu betreiben, dann registrieren Sie sich doch über den nachstehenden Banner für einen 14-tägigen Testaccount und überzeugen Sie sich selbst von der Effektivität moderner Extraktionslösungen.