Verfahren zum Scannen von Rechnungen: OCR-Tool

21. Juni 2014 | Rechnungsverwaltung

Im Bereich der Kreditorenbuchhaltung ist bekannt, dass das Ende einer Lieferantenrechnung in der Buchhaltung und alle Elemente der Verbesserung, die wir in den Prozess der Lieferantenrechnung einführen, darauf abzielen müssen, den Buchungszyklus zu verkürzen und die Kosten des Prozesses so weit wie möglich zu reduzieren. Aus diesem Grund ist die Digitalisierung der Rechnungen ein unmittelbarer Fortschritt.

Prozess der Digitalisierung von Rechnungen

Innerhalb eines Prozesses zur Digitalisierung von Lieferantenrechnungen können wir 4 Hauptphasen definieren:

  • 1. die Fakturierung und den 2- oder 3-Wege-Abgleich mit der Bestellung.
  • 2. Genehmigung von Rechnungen, für die Annahme von Rechnungen auf der Grundlage von Geschäftskriterien.
  • 3. Lösung von Vorfällen, Kategorisierung von Ausnahmen für die verfahrensmäßige Lösung.
  • 4. Automatische Buchung von Rechnungen.

Alle diese Phasen der Rechnungsdigitalisierung werden mit Workflow-Tools automatisiert, wie wir in unserem letzten Beitrag erwähnt haben, aber es gibt eine Grundvoraussetzung für ihren Betrieb: Die in den Rechnungen enthaltenen Daten müssen verfügbar sein. Dieser Punkt ist bei elektronischen Rechnungen kein Problem, da alle grundlegenden Rechnungsinformationen strukturiert in der Datei enthalten sind, aber was passiert mit Papierrechnungen und Rechnungen, die per E-Mail im PDF-Format eingehen?

Prozess der Rechnungsdigitalisierung: Tools und Funktionen

Die Verarbeitung von zuvor gescannten Papierrechnungen und PDF-Rechnungen erfordert ein OCR-Tool (Optical Character Recognition) zur Datenextraktion.

Was ist OCR?

Mit OCR können wir Rechnungsdaten extrahieren und für die weitere Rechnungsbearbeitung verwenden.

Bei easyap setzen wir verschiedene erstklassige OCR-Plattformen für die Verarbeitung von Papier- und PDF-Rechnungen ein. Durch den Einsatz dieser Plattformen seit mehr als 12 Jahren haben wir wichtige Erfahrungen gesammelt, wenn es darum geht, das tatsächliche Potenzial, die Grenzen und Abhängigkeiten dieser Plattformen zu kennen.

OCR-Plattform-Funktionalität

OCR-Plattformen sind eine große Hilfe, aber sie sind weit davon entfernt, eigenständige Lösungen zu sein, und sie sind auch weit davon entfernt, "out of the box"-Werkzeuge zu sein, die ohne wiederkehrende Entwicklung und Wartung unbeaufsichtigt laufen können. Im Allgemeinen sollte ein OCR-Tool die folgenden Schritte abdecken:

  • 1. die Klassifizierung der Dokumente, im Abschnitt über die Rechnungen muss zumindest die Identifizierung und Trennung der Rechnungen und ihrer Anhänge möglich sein.
  • 2. OCR, für die Erkennung von Rechnungsdaten. Je nach verwendeter Technologie kann diese Phase mehr oder weniger vorherige Parametrisierungsarbeit erfordern.
  • 3. manuelle Validierung der Rechnungen zur Korrektur von Daten, die von der OCR fehlerhaft extrahiert wurden. Es sei darauf hingewiesen, dass diese Phase nicht optional ist, da die automatische Verarbeitung von Rechnungen nach der OCR ohne manuelle Validierung angesichts der Fehlerquote nicht möglich ist.
  • 4. Qualitätskontrolle zur Behebung typischer Vorkommnisse der vorangegangenen Phasen, wie z.B.: mehr als ein Dokument pro Rechnung, schlechte Bildqualität, gedrehte Bilder,...

Bei den OCR-Plattformen gibt es zwei große Kategorien: vorlagenbasierte OCR und stichwortbasierte OCR. Während erstere eine spezifische Vorlage pro Lieferant erfordern, die für jeden Lieferanten angibt, wo jedes Rechnungsfeld zu finden ist, erfordern letztere die Definition von Suchbereichen und Schlüsselwörtern, um jedes Feld generisch für alle Lieferantenrechnungen zu finden. Einige der letztgenannten Systeme können ein Lernmodul enthalten, das die Selbsterstellung von Vorlagen auf der Grundlage manuell validierter Daten ermöglicht.

Außerdem unterscheiden sie sich durch die Möglichkeit, Detaillinien zu erfassen oder nicht.

Die auf Vorlagen basierende OCR hat als Stärke den höheren Wiedererkennungsgrad für jeden der Anbieter, aber als großen Nachteil die Notwendigkeit, für jeden Anbieter eine Vorlage zu definieren. Die Definition von Vorlagen erfordert ein hohes Maß an Engagement und die Inanspruchnahme technischer Ressourcen. So dauert es beispielsweise durchschnittlich 12 Minuten, um eine Vorlage für einen Anbieter für Rechnungen ohne Zeilen und 19 Minuten für Rechnungen mit detaillierten Zeilen zu erstellen, und im Durchschnitt ändert ein Anbieter alle 17 Monate einige Parameter, die sich auf das Rechnungsformat auswirken, so dass die Vorlage neu gestaltet werden muss.

Die stichwortbasierte OCR hat eine geringere Trefferquote, und beim Auffinden von Rechnungsfeldern werden "False Positives" erzeugt, erfordert aber weniger wiederkehrende Parametrisierungen. Die Vorkonfiguration ist zwar geringfügig, erfordert aber technische Ressourcen mit einem hohen Maß an Fachwissen.

OCR-Plattformen: Datenlokalisierung

Hinsichtlich der Lokalisierung der Rechnungsdaten und des Genauigkeitsgrads können wir 4 Hauptgruppen unterscheiden

  • - Numerische Daten: Das Lesen von numerischen Daten ist recht genau, vor allem bei Rechnungen, die arithmetisch validiert werden können, und insbesondere bei Rechnungen mit Steuern. Rechnungen mit mehreren Grundlagen und Rechnungen aus Ländern, in denen es keine Mehrwertsteuer oder 0% Steuer gibt, haben einen höheren Grad an Komplexität bei der automatischen OCR-Erfassung und weisen daher eine höhere Fehlerquote auf.
  • - Daten, die anhand externer Quellen validiert werden können: z. B. CIFs von Lieferanten und Kunden. Die Validierung der erkannten Daten anhand externer Datenbanken erhöht den Grad der Genauigkeit im automatischen Modus.
  • - Daten mit einem vordefinierten Format: z. B. Bestellnummern oder Daten. Es ist sehr üblich, dass Bestellnummern in Bezug auf Länge und Zahlenbereich einem Muster folgen, und die Suche nach Daten über die Position bestimmter Formate vereinfacht das Verfahren und verbessert die Trefferquote.
  • - Unstrukturierte Felder oder ohne vordefiniertes Format: z.B. Rechnungsnummer, Lieferanten-Lieferscheinnummer, Büro, Abteilung, etc... da es kein universelles Suchmuster gibt, haben diese Felder die höchste Fehlerquote bei der automatischen Erkennung.
  • - Detailzeilen: Bei Rechnungen mit Bestellungen ist die Extraktion der Rechnungszeilen in der Regel für den Abgleich mit Bestellungen und/oder Quittungen erforderlich. Dies ist das komplexeste Element bei der Erkennung und dasjenige, das die meiste manuelle Validierung zur Fehlerkorrektur erfordert. Die Komplexität ist so groß, dass nicht jede OCR-Software die Zeilenextraktion unterstützt.

Rechnungen scannen: OCR

Der Prozess der Digitalisierung von Rechnungen mit einem OCR-Tool erfordert technische/IT-Ressourcen für die Konfiguration, Wartung und Anpassung von Vorlagen und Anwendungen sowie administrative Profilressourcen für Scan-, Validierungs- und Qualitätskontrollaufgaben.

Zusammenfassend kann man sagen, dass OCR allein kein nützliches Werkzeug ist, da es die Automatisierung nachfolgender Schritte erfordert. Außerdem sind in einer Zeit, in der die elektronische Rechnungsstellung stark zunimmt und die Verwendung von PDF-Rechnungen immer weiter verbreitet ist, Investitionen in das Scannen von Rechnungen und OCR-Prozesse nur bei einem erheblichen Rechnungsvolumen gerechtfertigt.

Ein Volumen von weniger als 250.000 Papierrechnungen pro Jahr rechtfertigt weder die Investitionen in Technologie (Software und Hardware) noch die technischen und betrieblichen Ressourcen, die für die Wartung und den Betrieb der Lösung erforderlich sind.

Bei Papierrechnungen garantiert ein Modell, das auf der Auslagerung des gesamten Prozesses einschließlich des Workflows basiert, eine kurze Implementierungszeit und bringt Einsparungen von mehr als 30 % im Gesamtprozess.

Steigern Sie die Produktivität Ihres Unternehmens und optimieren Sie Ihre Abrechnungsprozesse

Haben Sie noch Zweifel? Kontaktieren Sie uns unter

1 + 3 =