Por medio del Blog de Desarrolladores de Google, nos llega la noticia de que Google abre un proyecto denominado OCRopus, a fines de crear un sistema de Reconocimiento de Caracteres ?ptico (OCR) avanzado.
Esta tecnología, OCR, se utiliza normalmente para digitalizar libros. El hecho de disponer de una herramienta como esta bien pulida, podría abrirle las puertas a Google a indexar nuevos contenidos, sea por permitir a otros digitalizar información o bien, al hacerlo por su propia cuenta.
El motor del proyecto OCRopus consiste en dos proyectos de investigación realizados anteriormente, uno es el lector de alta performance de lectura a mano (desarrollado en los años 90’s y utilizado en Censos de EEUU), y métodos de análisis, de alta performance, que permitan darle cohesión al texto que se lee.
Esta dupla otorga la solución ideal al problema que actualmente tienen los lectores OCR, los cuales suelen venir con scanners de media/alta gama, donde normalmente presentan problemas a la hora de leer caracteres raros, o bien de agrupar correctamente lo que dice el texto. Aspectos tan básicos como frases conocidas en nuestro idioma, son indetectables para estos sistemas, por lo que solo se basan en patrones de posibles formas de las letras, y esto nos deja con un texto digitalizado ilegible.
Este nuevo sistema, podría presentar una amenaza para aquellas personas dedicadas a la digitalización manual de información (dataentry), ya que al ser un proyecto de código abierto, el mismo podría ser utilizado en muchos otros proyectos con un costo relativamente bajo o nulo.
Fuente: Google Code Blog

Suscríbete a nuestro RSS Feed


Suscríbete a nuestro RSS Feed

hola que tal es muy intersante lo que se menciona en la pagina, sin embargo me gustaria saber si conoces algun OCR gratuito que pueda ser instalado y que funcione con independencia al scaner, recuerdo que office lo manejo tiempo atras con el “microsoft office document imaging”, pero ahora con la nueva version del office ya no viene esa herramienta y pues sufrimos varios, gracias
y saludos….