OCRopus, un OCR libre de la mano de Google


google-gears-petitAunque por el momento no existe ningún paquete ejecutable, su estado de desarrollo es muy avanzado.

Guillem Alsina ([email protected]) – Si en algún campo de la informática la evolución del software libre se ha visto frenada, este es sin duda el de los reconocedores ópticos de caracteres (OCR por sus siglas en inglés, optical character recognition). Google, impulsora de muchos proyectos en la modalidad de software libre, parece querer aportar su granito de arena a esta evolución con OCRopus.

Un OCR funciona de una forma teóricamente muy simple: se escanea una hoja escrita (manualmente o de imprenta, impresora, fax,…) para convertirla a un conjunto de bytes en el ordenador. Dicha hoja escaneada es interpretada por el software de la máquina como una imagen -de hecho, se almacena en un formato de imagen como JPG o TIFF-.

Con un programa adecuado -el OCR- esta imagen digitalizada es interpretada de una forma pseudo-inteligente (gracias a algoritmos matemáticos) mediante la cual el software intenta interpretar su contenido para pasarlo a un formato de texto manejable por cualquier software de procesamiento de palabras.

De esta forma es posible «recuperar» el texto de artículos publicados en revistas -y que no estén disponibles en formato digital- o bien manuscritos para poder manipularlos informáticamente, alterarlos, realizar copias o colgarlos en Internet.

Pese a que la tecnología empleada por los programas de este tipo no queda fuera del alcance de los usuarios finales (de hecho, la mayoría de los pequeños escáneres personales que se venden en establecimientos especializados y grandes superficies incluyen un software de este tipo), curiosamente no han florecido alternativas fuertes en el terreno del software libre a los productos comerciales, a diferencia de lo qué pasa -por poner un ejemplo- en el campo de los paquetes ofimáticos en el que tenemos a contendientes como OpenOffice.

OCRopus consiste en un sistema de reconocimiento e interpretación de caracteres que bebe de las fuentes de un proyecto llevado a cabo por la Oficina del Censo de los Estados Unidos a mediados de los años noventa y de posteriores herramientas de análisis.

Inicialmente, esta herramienta se dirije a un tipo de usuario con necesidad de procesar grandes cantidades de documentación, aunque para el futuro a largo plazo no se descarta su adaptación a otros tipos de usuario, como por ejemplo el doméstico.

Todavía no disponemos de ejecutables de OCRopus para ninguna plataforma, ni siquiera en fase beta. Su plataforma de desarrollo es Linux (concretamente Ubuntu 6.10) para plataforma x86 y x86/64, pero al estar escrito en C++ y Python es fácilmente migrable a otras plataformas hardware/software.

En cambio, el código fuente de la aplicación sí está disponible, y podemos apuntarnos al equipo de desarrollo al ser éste abierto como en todo proyecto de software libre, aunque éste sea esponsorizado por una multinacional como Google.

Para el futuro de esta herramienta, y una vez hayan visto la luz los primeros paquetes compilados y utilizables, es disponer de plug-ins para el reconocimiento de diversos conjuntos de caracteres o alfabetos, de forma que pueda ser adaptado a la mayoría de las lenguas del mundo y sus correspondientes formas de escritura.

Más información:

Sitio web de OCRopus
http://code.google.com/p/ocropus/

Entrada en el blog oficial de Google sobre OCRopus
http://googleblog.blogspot.com/2007/06/google-and-open-source-ocr.html