Está en la página 1de 6

Manual de escaneo, procesamiento y OCR

Por jparra para Ajedrez, Mi Pasin, 2012-08-01

1. Principios generales de escaneo y OCR


Un escner no es ms que una fotocopiadora que, en vez de realizar una copia en papel, transforma
cada pgina en un archivo de imagen, es decir, exactamente igual que ocurrira si sacramos una
fotografa a la pgina con una cmara fotogrfica. Por tanto, aunque nosotros veamos letras y palabras,
cada pgina est formada realmente por un conjunto de pxeles (negros, en gris o en color) sin ningn
significado especial.
Para convertir esta imagen en un texto (formado por letras, nmeros y otros caracteres que se podrn
copiar y pegar como cualquier texto normal y corriente), es necesario realizar un proceso denominado
Reconocimiento ptico de Caracteres, que abreviadamente se conoce por sus siglas en ingls OCR
(Optical Character Recognition).
Es muy importante dejar claro que si el texto escaneado tiene una calidad deficiente, con letras
borrosas, que les faltan trazos o incluso que se juntan unas con otras, el programa de OCR ser incapaz de
reconocerlas adecuadamente. Esto producir por ejemplo que al copiar y pegar el texto una vez realizado
el proceso de OCR, aparecern caracteres extraos que no tendrn nada que ver con el texto original
(ejemplos tpicos son ll que aparecen como U, rr como m, etc.). Por tanto, nunca me cansar de
repetir que LA CALIDAD FINAL DE UN TRABAJO DEPENDE DIRECTAMENTE DE LA
CALIDAD DEL ESCANEO INICIAL y EL TIEMPO DE PROCESAMIENTO DE UN
TRABAJO ES INVERSAMENTE PROPORCIONAL A LA CALIDAD DEL ESCANEO. Es ms
rentable volver a escanear un libro como es debido, que pasarse semanas o meses arreglndolo para que
quede medianamente decente. Claro que no siempre disponemos del libro para poder volver a
escanearlo
Existen diversos programas capaces de realizar el proceso de OCR. Podramos dividirlos en dos
grupos:
a. Programas que no modifican el contenido de las pginas escaneadas.
En realidad slo aaden digamos una capa oculta que contiene las letras y caracteres que
corresponde a la imagen grfica del texto. Esto es lo que hacen los programas que vienen con el
escner o el propio Adobe Acrobat. Como desventaja, no permiten interaccionar con el texto
resultante del OCR (salvo copiarlo y pegarlo), es decir, no es posible corregir errores del texto o
equivocaciones en el propio proceso de reconocimiento automtico del texto.
b. Programas que modifican el contenido de las pginas escaneadas.
A diferencia del caso anterior, estos programas sustituyen por completo las imgenes grficas
escaneadas por los caracteres de texto y tipos de letra ms parecidos a dichas imgenes. Es decir,
las imgenes escaneadas se sustituyen por texto real que podemos editar, corregir y modificar
como hacemos normalmente en cualquier editor o procesador de textos. Como desventaja, aun
conservando la forma y utilizando tipos de letras similares, se pierde un poco la apariencia y la
magia del libro original. Dos claros ejemplos de este tipo de programas son ABBY FineReader y
Ommipage (personalmente me quedo con el primero por goleada).
La ventaja fundamental de ambos tipos de programas es que permiten reducir drsticamente el
tamao de los archivos correspondientes al original escaneado. En el primer caso el programa es capaz
de eliminar gran cantidad de informacin de las imgenes que forman el documento, ya que sabe
quedarse solamente con la informacin correspondiente a la capa de texto obtenida del resultado del
proceso de OCR, mientras que en el segundo caso en el archivo de salida permanece nica y
exclusivamente el texto obtenido del proceso de OCR, es decir, exactamente un byte por cada carcter del
texto en el caso del juego de caracteres ASCII o bien dos bytes por cada carcter en el caso de texto
Unicode.
1

2. La calidad del escaneo, base de todo


Como ya coment anteriormente, sin calidad en el escaneo original no se pueden obtener buenos
resultados ni se pueden hacer milagros. En pginas sueltas o en libros que abren perfectamente en un
ngulo de 180 esto no es problema, pero en libros que abren mal o que tienen muy poco margen interior,
es importante escanear cada pgina con sumo cuidado. Ahorrar unos pocos minutos de tiempo en el
proceso de escaneo slo sirve para obtener resultados que dan ganas de tirar a la basura
Unos sencillos consejos de escaneo que se pueden leer en muchos sitios y foros de Internet son los
siguientes:
1) Si el programa que viene con el escner no nos convence, yo recomendara VueScan. Aunque
seguro que hay muchos otros estupendos.
2) En las opciones de escaneo del programa, seleccionar siempre al menos 300 ppp (puntos por
pulgada, en ingls dpi="dots per inch"). Nunca menos si no queremos perder calidad del texto.
Incluso 600 ppp si disponemos de un buen escner y no hay mucha diferencia de tiempo de
escaneo entre una opcin y otra.
Por si acaso necesita aclaracin, los ppp definen la denominada RESOLUCIN de las
imgenes escaneadas, exactamente de la misma forma que hablamos de resolucin grfica en una
pantalla, un televisor, una cmara fotogrfica o una impresora. As, 300 ppp indica que en una
pulgada (ya sea en vertical u horizontal) se crean 300 pxeles o puntos de la imagen, mientras que
600 ppp indicara que en dicha pulgada se crearan 600 pxeles. Obviamente si en el mismo
espacio se crean el doble de puntos quiere decir que cada punto ha de tener la mitad de tamao
para que quepan, o dicho de otra forma, estamos escaneando al doble de resolucin.
3) Seleccionar la opcin de escanear "Documento en escala de grises" para las pginas en blanco y
negro o en gris del libro, y "Documento en color" para la portada y contraportada o bien para
aquellas pginas con fotos/dibujos en color.
4) Como tipo de salida, seleccionar archivos de imagen en formato TIFF (Tagged Image File
Format), para ms informacin http://en.wikipedia.org/wiki/Tagged_Image_File_Format). Pongo
el enlace en ingls porque, en este caso y como por desgracia ocurre muchas veces, el artculo de
la Wikipedia en espaol resulta bastante pobre
5) Si se escanea el libro a doble pgina, que es lo habitual, es necesario abrirlo por completo y
aplastarlo con la mano mientras se escanea para que quede bien pegado al cristal del escner y no
queden zonas cortadas, borrosas o curvadas.
La curvatura de lneas se puede arreglar con Scan Tailor, aunque lleva su tiempo. Los otros
defectos son prcticamente irreparables (hace falta restaurar los caracteres defectuosos uno a uno
con un programa de retoque de imgenes, un arduo trabajo que muchas personas no saben
apreciar). Aunque parezca muy drstico, muchas veces es necesario destrozar un libro para
poder abrirlo completamente sobre el cristal del escner si realmente queremos obtener buenos
resultados. Una vez escaneado habr que echar mano del pegamento para arreglar el libro y
volver a dejarlo en buenas condiciones...
6) Por favor, escanead TODAS las pginas. Si se quiere conservar la estructura de pginas pares a la
izquierda e impares a la derecha de cualquier libro, no vale la pena saltarse pginas en blanco o
las pginas de crditos por ahorrar unos minutos de tiempo que no van a ningn sitio...
Con estos sencillos consejos (que no tienen por qu influir apenas en el tiempo que se tarda en
escanear un libro, y que, dependiendo de la pericia de cada uno, no suele pasar de 1 2 horas por cada
100 pginas), obtendris escaneos perfectos que luego sern sencillos de reprocesar y proporcionarn
copias de excelente calidad sin tener que perder horas, das, semanas e incluso meses limpiando puntitos
y arreglando caracteres mal escaneados. Y recordad: NO IMPORTA EL TAMAO DE LAS PGINAS
OBTENIDAS TRAS EL PROCESO DE ESCANEO, LO QUE IMPORTA ES LA CALIDAD Y LA
RESOLUCIN. La razn de esto se ver a continuacin.

3. La navaja suiza del reproceso: Scan Tailor


Una vez escaneado un libro, lo normal es reprocesarlo (esto tambin se puede realizar a partir de un
libro en PDF cuyo aspecto final no sea demasiado bueno y queramos mejorarlo). En esta fase se cortan las
pginas dobles, se endereza el texto, se eliminan posibles rayones, puntos negros y defectos, y se obtienen
archivos de imagen TIFF para cada pgina que ocupan muchsimo menos que los archivos TIFF
originales.
En mi opinin la mejor herramienta que existe atendiendo a su facilidad de manejo y los resultados
obtenidos es el programa gratuito Scan Tailor (otra alternativa gratuita es ScanKromsator, pero, aunque
reconozco que no s manejarlo, me parece que tiene un aprendizaje ms lento). La pgina oficial de Scan
Tailor es http://scantailor.sourceforge.net, y en el apartado "Documentation" existe un Wikitutorial en
ruso e ingls. Lo importante es que en la parte inferior aparece un enlace en la seccin en ingls con un
vdeo que permite aprender a utilizar el programa en pocos minutos. Est en ingls, pero slo con verlo es
suficiente (si yo aprend con l, entonces es que puede aprender cualquiera).
A grandes rasgos, estos seran los pasos que hay que llevar a cabo para reprocesar un libro con Scan
Tailor:
1. Si se desea reprocesar un libro en PDF, desde Adobe Acrobat (u otro programa de tratamientos de
archivos en PDF) se debe elegir "Guardar como - Imagen - TIFF" para obtener los archivos de
imagen correspondientes a cada pgina (es decir, como si realmente hubiramos escaneado el
libro).
Hay que crear y seleccionar una carpeta en nuestro disco duro. Acrobat crear un archivo de
imagen TIFF por cada pgina. Si en automtico no est seleccionada la opcin de 300 ppp de
resolucin (118,11 pxeles/cm) o si el resultado no es el esperado, basta con borrar todos los
archivos creados en la carpeta y volver a generarlos eligiendo la resolucin manualmente en el
botn Configuracin. Incluso a veces es mejor seleccionar 600 ppp (236,22 pxeles/cm), pero
no siempre ya que si los archivos de imagen son demasiado grandes, Scan Tailor tarda unos
segundos en procesar cada pgina y nuestro trabajo se ralentiza.
2. Ya en Scan Tailor, elegir "New Project", indicar la carpeta con los archivos y seleccionar todos
los archivos. A veces Scan Tailor protesta si todas las pginas no tienen la misma resolucin,
siendo necesario indicarla manualmente.
Luego mientras estemos trabajando con Scan Tailor iremos guardando el proyecto con "File Save project" de vez en cuando. Ojo, esto no guarda ningn archivo TIFF, sino un archivo con
extensin .scantailor que almacena las caractersticas del proyecto y las modificaciones
realizadas en las pginas. Por tanto, este archivo se puede guardar en cualquier sitio y con el
nombre que queris, aunque lo lgico es darle un nombre similar al ttulo del libro y guardarlo no
muy lejos de la carpeta con los archivos TIFF originales.
Por cierto, Scan Tailor ya tiene traduccin al espaol pero a m me sigue gustando ms la versin
en ingls
3. Ahora viene el trabajo real de procesamiento, que se realiza mediante los 6 pasos o tareas que
aparecen arriba a la izquierda:

Fix Orientation, para orientar las pginas en horizontal o vertical. No suele ser necesario
hacer nada manualmente con esta opcin, pero siempre es recomendable darles un repaso a
las pginas por si acaso (las teclas AvPg/RePg permiten ir rpidamente a la
siguiente/anterior pgina, e Inicio y Fin a la primera y ltima pgina respectivamente).
En casi todas las tareas aparecen opciones a la izquierda. En concreto, los botones Change
o Apply to permiten por ejemplo aplicar las mismas opciones a todas las dems pginas o
las siguientes a la pgina actual, lo cual suele resultar muy til.
Tambin os recomiendo que probis los mens contextuales (botn derecho del ratn) en
distintas zonas, por ejemplo en el panel central, en las pginas en miniatura de la parte
derecha, etc. Experimentando se aprende
3

Split Pages, para dividir las pginas si se escane el libro a doble pgina. Suele detectarlo
bien, aunque hay que repasar las pginas y desplazar la barra vertical de separacin si fuese
necesario.

Deskew, para girar las pginas torcidas o inclinadas. Prcticamente siempre lo hace bien.

Select Content, para seleccionar el contenido de cada pgina, es decir, exclusivamente el


texto de la pgina. No importa dnde est situado, ya que luego se alinear segn sea
necesario. Suele funcionar bien de forma automtica al 90%, pero a veces no detecta por
ejemplo bien las cabeceras o nmeros de pgina, por lo que habr que repasar las pginas
desplazando los bordes del cuadro de contenido cuando sea necesario.

Margins, permite definir los mrgenes y el tamao de las pginas. Esta es la opcin, en mi
opinin, ms complicada de ajustar (suelen resultar de gran utilidad las opciones de
ordenacin que aparecen en la parte inferior del panel de pginas en miniatura, que permiten
ordenar las pginas por tamao vertical u horizontal).
Los mrgenes son complicados porque la pgina con mayor tamao (contando tanto su caja
de contenido como sus mrgenes) determinar el tamao de todas las dems y por tanto el
tamao final del libro.
Lo normal es poner mrgenes cero a la portada/contraportadas e indicar un cuadro de
contenido en Select Content que ocupe toda la portada/contraportada. De esta forma la
portada/contraportada definir el tamao final del libro.
Para las dems pginas deberemos jugar con los mrgenes hasta dar con el adecuado.
Normalmente yo suelo definir solamente el margen superior (y todos los dems mrgenes a
cero) y selecciono la opcin de alinear las pginas arriba centradas horizontalmente. Probad
y experimentad hasta que le cojis el truquillo En cualquier caso luego hay que repasar las
pginas para comprobar el resultado (y alinear o arrastrar los mrgenes por ejemplo para las
pginas de ttulos, de crditos, etc.).
Si el tamao de la portada/contraportada no se adeca al tamao que deseamos, basta con
editarlas en un programa de retoque de imgenes y reducir o aumentar su tamao un cierto
porcentaje (por ejemplo reducirlas en un 90% o aumentarlas en un 110% de su tamao).
Como comento ms adelante, yo utilizo para ello Paint Shop Pro, pero cualquier programa
de retoque permite realizar estas tareas fcilmente.

Output, permite ver el resultado de salida final de cada pgina y realizar diversos procesos
de limpieza.

4. En cuanto a este ltimo paso Output, aqu realizaremos las tareas de limpieza que podrn
llevarnos una o dos horas, o bien toda una vida para dejar en condiciones un libro que est muy
deteriorado. A modo de resumen podemos comentar lo siguiente:

A la izquierda hay que seleccionar la resolucin de salida, el modo (blanco y negro,


color/escala de grises o mixto) y el grosor de los caracteres. Normalmente se utiliza blanco y
negro 300 ppp, y color con menor resolucin para la portada/contraportada (en la subcarpeta
"out" quedan los archivos TIFF definitivos de salida, y habr que ir disminuyendo la
resolucin de la portada/contraportada para que sus correspondientes archivos no ocupe ms
de por ejemplo 1MB). La opcin Mixto se utiliza para pginas con fotos o diagramas en
color o en escala de grises.

A la derecha aparecen varias pestaas, donde la pestaa "Output" muestra el resultado final
de la pgina.

La pestaa "Picture zones" permite sealar (o eliminar con el botn derecho) las zonas que
se consideran imgenes en caso de que indiquemos como salida que las pginas son mixtas y
no se detecten automticamente (en el vdeo se ve cmo utilizar esta opcin).

La pestaa "Fill zones" permite eliminar manchas negras o aadir trozos de texto que faltan
(con el botn derecho se elige el color de las zonas de relleno, lo que permite "dibujar" letras
o lneas borrosas, un trabajo "de chinos" que desmoraliza al ms optimista...).

La pestaa "Dewarping" permite enderezar lneas de texto que han salido curvadas porque
no se abri bien el libro al escanearlo o bien por estar fotocopiado. Hay que ir arrastrando los
puntitos de arriba y abajo (o crear nuevos puntitos sin ms que hacer clic o borrarlos con la
tecla Supr) para ajustarlos a la lnea del texto. Otro trabajito "de chinos"...

La pestaa "Despecklin" slo muestra qu puntos de la pgina estamos eliminando con los
botones de limpieza de la parte izquierda, ya que si elegimos el botn ms agresivo podemos
perder cosas vlidas (por ejemplo, con la opcin ms agresiva a veces desaparecen los
puntos suspensivos "..." del texto).

5. Una vez terminado el trabajo, se cierra Scan Tailor, se seleccionan todos los archivos de la
subcarpeta "out" y con el botn derecho se selecciona la opcin "Combinar archivos en un PDF"
de Adobe Acrobat.
Si no disponis de Adobe Acrobat, tendris que montarlos con otro programa (por ejemplo
i2pdf) o bien podris pasarle la carpeta out a alguien para que monte el PDF.
6. Por ltimo, en Adobe Acrobat ya se puede realizar el proceso de OCR, seleccionar el zoom por
defecto, crear bookmarks, etc.
Finalmente cabe mencionar que a veces hay pginas que estn tan defectuosas que resulta imposible
arreglarlas directamente desde Scan Tailor y es necesario editarlas previamente con algn programa de
retoque de imgenes. Yo utilizo Paint Shop Pro, pero sirve prcticamente cualquiera. Con dicho programa
coloreo o arreglo la portada y contraportada de los libros, realzo el texto si Scan Tailor no es capaz de
reconocer todos los trazos adecuadamente, copio y pego caracteres en buen estado sobre otros
defectuosos, arreglo diagramas de las partidas, etc. Esto es un trabajo de chinos, por lo que hay que
sopesar si realmente merece la pena llevarlo a cabo o es mejor, como ya coment varias veces, VOLVER
A ESCANEAR BIEN EL LIBRO (claro que no siempre podemos disponer de l).

4. La opcin OCR ClearScan de Adobe Acrobat


La opcin ClearScan de Adobe Acrobat permite, a la vez que se lleva a cabo el proceso de OCR de
un documento, modificar la representacin grfica de los caracteres del documento sustituyndolos por un
tipo de letra vectorial con la que se elimina el conocido efecto de dientes de sierra que se aprecia en los
bordes de los caracteres al realizar un zoom y acercar el texto del documento. El resultado tanto al
visualizar el documento como al imprimirlo es impecable y no veo razn alguna para no llevarlo a cabo
en cualquier libro escaneado, reprocesado y convertido a PDF.
Para utilizar la opcin OCR ClearScan en Adobe Acrobat, basta con:
1. Desplegar el men "Herramientas" (arriba a la derecha).
2. Desplegar la opcin "Reconocer texto".
3. Seleccionar "En este archivo".
4. Aqu es recomendable probar a convertir rangos de pginas (por ejemplo, de 50 en 50 o de 100 en
100, o incluso slo la pgina actual) e ir guardando cada modificacin con distinto nombre si todo
va bien (por ejemplo, muchas veces no queda bien aplicarle ClearScan a la portada o
contraportada).
5. Otro detalle: las pginas apaisadas quedarn giradas 90, por lo que es necesario ponerlas como
estaban con la opcin Rotar pgina de Adobe Acrobat.
6. En el cuadro "Configuracin", hacer clic en el botn Editar".
7. Y aqu finalmente hay que desplegar "Estilo de salida PDF" y seleccionar "ClearScan" (con
idioma Espaol, Ingls o lo que corresponda, y normalmente con 300ppp).
Un ltimo consejo: no utilizar la opcin "Herramientas - Proceso de documentos - Optimizar PDF
digitalizado" (salvo casos excepcionales), y menos an antes de utilizar la opcin de OCR ClearScan.
Esta opcin realiza una optimizacin automtica de las imgenes que componen el documento (de nuevo
recalcamos el hecho de que una pgina escaneada no es ms que una imagen), y en la mayora de los
casos lo nico que se consigue es una prdida de calidad de dichas imgenes. Si a simple vista no se
aprecia, basta con hacer un zoom para comprobar que el texto original escaneado se ha deteriorado
notablemente, apareciendo multitud de puntitos y sombras alrededor de los caracteres del texto.

También podría gustarte