Está en la página 1de 10

SISTEMA INTELIGENTE DE INTERPRETACIN DE FACTURAS Autor: Bernabeu Juan, Carlos Jos. Director: Prez-Campanero Anastasio, Juan Antonio.

Entidad Colaboradora: ICAI - Universidad Pontificia Comillas. RESUMEN DEL PROYECTO


El objeto de este proyecto es el de crear un sistema sencillo para la informatizacin de las facturas en las empresas mediante tecnologa OCR, no slo para la agilizacin del proceso sino tambin para el ahorro en costes de personal. Palabras clave: Digitalizacin facturas, sistema inteligente, interpretacin de facturas, facturas, interpretacin, OCR.

Figura 0.1 Aplicacin en ejecucin Introduccin Actualmente las empresas ya sean pequeas, medianas o grandes, tienen muchos proveedores, de servicios o productos, y todos emiten facturas. Las facturas son el comprobante oficial de una transaccin econmica entre dos partes. Es muy importante para las empresas la gestin de las facturas, y para hacer las cosas ms sencillas, se intentan mantener en soporte informtico, indexadas y en bases de datos con seguridad ante posibles fallos. La forma de pasar de soporte en papel a soporte informtico es por medio de un operario que lo nico que hace es transcribir lo que ve en el papel al sistema informtico de gestin de facturas. Este proceso adems de aadir costes a la empresa, no es llevado a cabo por todas las empresas, de hecho, las empresas que lo hacen suelen tener un tamao considerable, las medianas y pequeas suelen dejar las facturas archivadas en un

formato perecedero, como puede ser el papel. Con el desarrollo del sistema se va a conseguir una mayor aceptacin del concepto de informatizacin de las empresas, poniendo al alcance de todos la digitalizacin de las facturas. El sistema se ha desarrollado para cubrir las necesidades bsicas de la digitalizacin de las facturas. Actualmente las empresas que tienen servicios parecidos desarrollados los ofrecen a un precio que las empresas pequeas y medianas son incapaces de afrontar. Es por ello que hemos desarrollado la herramienta con software libre, abaratando as los costes de la aplicacin. Operatividad El sistema inteligente de interpretacin de facturas combina tecnologa OCR, (Optical Character Recognition), con una interfaz sencilla de utilizar y flexible que permite tanto digitalizar las facturas como corregir datos errneos y aadir comentarios a las facturas digitales. Se compone de cuatro mdulos fundamentales, el primero es sin duda el ms importante e innovador ya que se encarga de la carga y captura de las secciones importantes de una factura, al conjunto de secciones importantes en una factura las hemos llamado esqueleto.

Figura 0.2 Esqueleto de un proveedor

El segundo es el mdulo OCR, que se encargar de adquirir los datos de las partes de la imagen que hemos seleccionado anteriormente como importantes, por medio de la tecnologa OCR, (Reconocimiento ptico de Caracteres). El tercer mdulo es el de correccin de errores, que se encarga de dar la opcin al usuario de corregir cualquier tipo de error que el OCR haya podido introducir. Y el ltimo mdulo es el de acceso a las bases de datos, guardando los datos de cada factura en la base de datos de la empresa. Todo el programa se desarrollar en Java, utilizando Eclipse como entorno de desarrollo y para las bases de datos MySQL. Ms adelante se detallar el porqu de la eleccin de stas tecnologas.

Figura 0.3 Zonas de la aplicacin Desafos tcnicos Los problemas que surgieron al abordar el proyecto estaban casi todos relacionados con la eleccin de un sistema OCR. Al tener relativamente poco tiempo y el equipo estar formado por una sola persona, la elaboracin de un OCR desde cero y nuevo se descart inmediatamente. Los OCR existentes son, la mayora, de pago y al no disponer de un presupuesto no nos fue posible adquirir ninguna licencia. Los OCR que utilizamos durante el desarrollo del sistema eran o versiones gratuitas de prueba o OCR sin ningn soporte ni garantas.

Figura 0.4 Dificultades. Precisin del OCR

Finalmente encontramos una solucin que nos aportaba tanto fiabilidad, tasa de aciertos elevada, soporte y garanta de funcionamiento. Se trataba de un sistema en fase beta por medio del cual ABBY FineReader, (uno de los motores OCR con mejores prestaciones del mercado), estaba disponible para hacer Cloud Computing por medio de una conexin a internet. Conclusiones Con este proyecto se demuestra que tecnologa punta como puede ser el procesamiento OCR de facturas, puede estar al alcance de las empresas que no disponen del poder adquisitivo asociado a las empresas que suelen adquirir este tipo de sistemas. La tecnologa OCR se puede aplicar a prcticamente todas las tareas de informatizacin de archivos en una empresa, en particular a los procesos de informatizacin de facturas, eliminando tareas montonas y que no requieren cualificacin dentro de la empresa. Con este proyecto se pone a disposicin del 80% de las empresas espaolas, las PYMES, una solucin sencilla de utilizar, fiable y barata, que servir tanto para aumentar el grado de informatizacin de la empresa, como ayudar a su crecimiento futuro. Referencias [WWW01] ABBY OCR SDK Forum. http://forum.ocrsdk.com/ [WWW02] ABBY Developers. http://www.abbyy-developers.com/en:onlineocrsdk:start [WWW03] Simple OCR Web Page. http://www.simpleocr.com/ [WWW04] Google Docs OCR. http://googlesystem.blogspot.com.es/2009/09/googledocs-ocr.html

INTELIGENT SYSTEM FOR THE INTERPRETATION OF INVOICES


Abstract The projects objective is to create a simple OCR-based system for the interpretation of invoices, not only to speed the process up but also to have less people in charge of this matter on the organization, and therefore save money on a daily basis. Keywords: OCR, intelligent system, invoice interpretation, invoice.

Figure 0.1 Application Running. Introduction Nowadays organizations have lots of service providers, and they all send different invoices to the organization. Invoices are the official document needed to perform a commercial transaction between two entities. The management of this invoices is very important for the organization, they keep them safe on their databases. The way to keep record of everything and to have the databases as up-to-date as possible is to have people continuously transcribing from the paper invoice to the informatics system. This process not only adds cost to the organization, but also is commonly avoided in small businesses. In fact the organizations that actually perform these tasks are big businesses, the small ones leave the invoices in the paper format. With the developing of this project, we will achieve a higher acceptance of the concept that is the computerization of the organizations, performing the invoice interpretation at a very low cost.

Usage Our system combines OCR technology, (Optical Character Recognition), with a easyto-use flexible interface, that will allow OCR processing and data correcting all in one solution. The system has four basic modules, the first module is in charge of uploading the invoice into the system and then defining the important sections of that invoice, those important sections contain the information that we want to save, we call those sections the Skeleton of a providers invoice.

Figure 0.2 A providers Skeleton

The second module is the OCR module, in charge of processing the invoice and capturing the information in it. The third module is the one in charge of correcting any mistakes the OCR might have had, giving the possibility of manual correction. The last module is the database module, in charge of updating the databases with the new information. The program will be developed in Java, with Eclipse as the developing environment and MySQL as the database manager.

Figure 0.3 Sections of the application.

Technical difficulties The biggest technical difficulty was the one related to the election of the OCR. We didnt have enough time to develop the OCR so we had to use one that already existed. The problem with this technology is that it is very expensive, we didnt have any kind of budget so we couldnt buy a license. During the development of the system we used free trial versions of the OCRs but the problem was that they didnt include all the features and didnt offer any support.

Figure 0.4 Difficulties. OCRs precission

We finally found one that offered us reliability, support, and had a very high hit rate, ABBYs FineReader, (one of the best commercial OCR available nowadays). ABBY had just launched a beta web page for developers to use the ABBY FineReader OCR using cloud computing. Conclusions With our project we minimize the gap between technology and small businesses, and we offer these businesses state-of-the-art technology for them to use on their organizations at a very small price compared with the solutions in the global market. OCR technology is so versatile it can be used virtually everywhere, from invoice interpretation to car plate recognition. We offer the small businesses, (which form 80% of the organizations), a simple, reliable, easy-to-use, and cheap solution to help them save money and grow as part of the information technology society.

References [WWW01] ABBY OCR SDK Forum. http://forum.ocrsdk.com/ [WWW02] ABBY Developers. http://www.abbyy-developers.com/en:onlineocrsdk:start [WWW03] Simple OCR Web Page. http://www.simpleocr.com/ [WWW04] Google Docs OCR. http://googlesystem.blogspot.com.es/2009/09/googledocs-ocr.html

También podría gustarte