Hay que desarrollar una aplicación en el lenguaje que se desee (recomendable si es en php o java) que vaya leyendo un conjunto de imágenes desde una ruta predefinida y que para cada una interactue con alguna de las herramientas de OCR existentes en el mercado (Tesseract, Abby, Kofax,...) y que devuelva en formato json o xml la información obtenida de la imagen. Previo a ello deberá aplicar los filtros necesarios de forma automática a cada imagen para optimizar el reconocimiento (así como la detección de la orientación, la supresión de ruido, ... etc).
En primer lugar nos interesa que sea capaz de reconocer la información que hay en los tickets que todos tenemos (a partir de una foto del movil) ya sean tickets de taxi, gasolinera, restaurante, .. etc y para cada imagen generar el archivo con la información obtenida y la fiabilidad de la misma... debe incluso disponer de un conjunto de reglas que permita detectar los valores mínimos de un ticket:
- CIF/NIF/identificador emisos así como su nombre
- Importe total
- Parte correspondiente de impuestos (IVA o equivalente)
- Tipo de ticket (opcional)
Si teneis más dudas contactad con nosotros.
Saludos
Hola, que tal nosotros somos expertos en diseño y desarrollo de software .Nuestro eqipo de programadores y diseñadores tiene más de siete años de experiencia en el sector. Es por eso que somos su mejor eleccion. Nos gustaria poer hablar con ustedes, para ver todos los requerimientos por s k y pe . Saludos.
lo tengo realizado con Visual Studio y c#, en escritorio. Funciona bastante mas rápido que con php o java . Habría que adaptarlo para las especificaciones que quieres, me refiero a las reglas para los valores mínimos, pero creo que se adapta a lo que necesitas. Te entregaría tambien el codigo fuente para que se pudieras modificarlo en el futuro.
Mi propuesta es realizar una aplicación web en java que se pueda definir una plantilla (habrá tantas plantillas como tipos ticket), en esta plantilla se marcan las zonas de los datos a obtener el OCR y luego a través de tesseract se realiza el OCR a cada zona de todos los tickets, cada zona debe matchear con la expresión regular definida en la plantilla para cada dato, si no matchea se indicará el ticket como warning y se podrá ingresar a mano en posterior etapa, una vez finalizado el lote (archivos en el directorio) se exporta al formato deseado (json, xml, etc.).
Buenas,
Como profesión, desarrollo algoritmos de machine learning (redes neuronales) para la inversión automática en bolsa y Forex, así como sistemas multiagente para su ejecución en tiempo real.
El aprendizaje para el OCR siempre me ha llamado la atención, así que vuestro proyecto podría interesarme.
¿Podríais enviarme un set de imágenes de ejemplo? ¿Tenéis acotado el presupuesto y el tiempo que queréis dedicar al desarrollo del proyecto?
Un saludo,
Miguel
Que tal,
Yo puedo desarrollar su proyecto.
Un par de preguntas:
El programa es para Linux o Windows?
Puede enviarme algunas imagenes de ejemplo sobre las que hay que hacer OCR?
Para que fecha lo necesita?
Un cordial saludo,
Jorge Esquer