Proceso de digitalización de facturas: Herramienta OCR

Jun 21, 2014 | Workflow de facturas

En el area de Cuentas por Pagar se conoce muy bien que el fin de una factura de proveedor en su contabilización, y todos los elementos de mejora que introduzcamos en el proceso de facturas de proveedor deben de ir encaminados a una reducción del ciclo de contabilización así como a disminuir el coste del proceso lo máximo posible. Por ellos la digitalización de facturas se trata de un avance inminente.

Proceso de digitalizacion de facturas

Dentro de un proceso de digitalización de facturas de proveedor podemos definir 4 grandes fases:

  • 1. Conformación de facturas y cuadre de 2 ó 3 vías contra pedido.
  • 2. Aprobación de Facturas ,para aceptación de facturas en base a criterios de negocio.
  • 3. Resolución de incidencias, categorización de las excepciones para su resolución procedimentada.
  • 4. Contabilización automática de facturas.

Todas estas fases en la digitalización de las facturas se automatizan con herramientas de workflow como ya indicábamos en nuestro post previo, pero existe un requisito básico para su funcionamiento: se debe disponer de los datos contenidos en las facturas.  Este punto no supone inconveniente alguno para las facturas electrónicas, ya que toda la información básica de factura es contenida de forma estructurada en el fichero pero ¿qué pasa con las facturas en papel y las facturas recibidas por email en PDF?

Proceso de digitalizacion de facturas: Herramientas y funcionalidad

El tratamiento de las facturas en papel , previamente escaneadas, y de las facturas PDF requiere de una herramienta de OCR (Optical Character Recognition)para la extracción de datos.

Que es el OCR?

El OCR nos permite extractar los datos de la facturas y utilizarlos para  el posterior proceso de las mismas.

En easyap utilizamos para el proceso de las facturas en papel y PDF, en la externalización de procesos de cuentas por pagar de facturas, diferentes plataformas de OCR de primer nivel, y el uso de las mismas desde hace más de 12 años nos ha aportado una experiencia importantísima a la hora de conocer el verdadero potencial,  los limites y dependencias de las  mismas.

Funcionalidad de plataformas OCR

Las plataformas de OCR son una gran ayuda pero están muy lejos de ser soluciones autónomas y de ser  herramientas “out of the box” que puedan funcionar de forma desatendida sin desarrollo y mantenimiento recurrente. De forma general una herramienta de OCR debe de cubrir los siguientes pasos:

  • 1. Clasificación de documental, en el apartado de facturas se debe de permitir al menos la identificación y separación de facturas y de sus anexos.
  • 2. OCR, para el reconocimiento de los datos de la factura. Dependiendo de la tecnología usada esta fase puede requerir más o menos trabajos previos de parametrización.
  • 3. Validación Manual de facturas, para la corrección de los datos erróneamente extractados por el OCR. Es de destacar que esta fase no es opcional, ya que el proceso automático de las facturas tras el OCR sin su validación manual no es posible dado el ratio de errores producidos.
  • 4. Control de Calidad, para la solución de las incidencias propias de fases previas como son: más de un documento por factura, imágenes de mala calidad, rotar imágenes ,…

En cuanto a las plataformas de OCR, existen dos grandes categorías:  los OCR basados en plantillas y los OCR basados en palabras clave. Así como los primeros tienen como requisito una plantilla especifica por proveedor, indicando para cada proveedor donde encontrar cada campo de factura, los segundos requieren definir las zonas de búsqueda y palabras claves para localizar cada uno de los campos de forma genérica para todas las facturas de proveedor. Algunos de estos últimos pueden incorporar un modulo de aprendizaje que permite la auto creación de plantillas en base a los datos validados de forma manual.

Adicionalmente se distinguen por la posibilidad o no de capturar líneas de detalle.

Los OCR basados en plantillas tienen como punto fuerte el mayor nivel de reconocimiento para cada uno  de los proveedores pero como principal punto en contra la necesidad  de definir una plantilla por cada proveedor. La definición de las plantillas requiere de  la dedicación y dependencia de recursos técnicos. Sirva de referencia que hacer una plantilla de un proveedor toma de media 12 minutos, para facturas sin líneas, y 19 para facturas con líneas de detalle y que de media un proveedor cambia algún parámetro que afecta al formato de factura cada 17 meses, lo que obliga al rediseño de la plantilla.

Los OCR basados en palabras claves tienen un grado de acierto menor,  y se generan “falsos positivos” a la hora de localizar los campos de factura, pero implican menos parametrización recurrente. La configuración previa ,aunque menor , exige contar con recursos técnicos de un grado de experiencia alto.

Platadormas OCR: Localización de datos

En cuanto a la localización de datos de factura y el grado de acierto podemos distinguir 4 grandes grupos

  • Datos Numéricos:  la lectura de datos numéricos es bastante acertada, sobre todo aquellos que pueden ser validados aritméticamente y especialmente en las facturas que tienen impuestos. Las facturas con varias bases y las facturas de países en los que no  existen impuestos tipo IVA o existen impuestos al 0% presentan un mayor grado de complejidad en su captura OCR automática y por lo tanto tiene un mayor ratio de errores.
  • Datos que permiten su validación con fuentes externas: como pueden ser CIFs de proveedor y de cliente. La validación del dato reconocido contra bases de datos externas permite incrementar el grado de acierto en modo automático.
  • Datos con formato predefinido: como por ejemplo números de pedido o fechas. Es muy común que los números de pedido  sigan un patrón en cuanto a la longitud y rango numérico, y la búsqueda de datos vía la localización de formatos específicos simplifica el procedimiento y mejora el grado de acierto.
  • Campos no estructurados o sin formato predefinido: como son el numero de factura, numero de albarán de proveedor,  oficina, departamento , etc…  al no disponer de un patrón de búsqueda universal  estos campos son los que mayor ratio de errores tienen en el reconocimiento automático .
  • Líneas de detalle: de forma habitual para las facturas con pedido se requiere  la extracción de las líneas de factura para el cuadre contra los pedidos y/o entradas. Este es el elemento más complejo en su detección y el que a más validación manual obliga para la corrección de errores. La complejidad es tal que no todos los software de OCR soportan la extracción de líneas.

Digitalización de facturas: OCR

Para el proceso de digitalización de facturas con una herramienta de OCR se requieren recursos técnico / informáticos para la configuración, mantenimiento  y adaptación de plantillas y aplicaciones, y recursos de perfil administrativo para las tareas de escaneo, validación y control de calidad.

En resumen podríamos concluir que el OCR no es una herramienta útil por sí sola, ya que requiere de la automatización de pasos posteriores. Adicionalmente en un momento en el que el uso de la factura electrónica está subiendo de forma importante y el uso de las facturas en pdf se está generalizando, la inversión en procesos de escaneo y OCR de facturas solo se justifican con un volumen importante de facturas.

Un volumen de facturas en papel inferior a las 250.000 año no justifica la inversión en tecnología (software y hardware)  ni los recursos técnicos y operativos necesarios para el mantenimiento y operación de la solución.

Para las facturas en papel un modelo basado en la externalización de todo el proceso,  incluido el workflow, garantiza un tiempo de implantación corto y aporta ahorros superiores al 30% en el proceso global.

Aumente la productividad de su empresa y optimice los procesos de facturación

Aún sigues con dudas? Contactanos

9 + 1 =