Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Tutorial para Escanear y Compartir
Tutorial para Escanear y Compartir
Versin 1.07
Escrito por Vadimir T. T. - Traducido al ingls por A.
Traducido al espaol por Armando.
2008
ndice
1 Introduccin
2 Escanear un libro
10
11
13
16
17
18
21
23
24
27
1. Introduccin
Este es un mini tutorial acerca del escaneo de libros y la creacin de sus
archivos en alta calidad. El tutorial es para todo principiante que quiera
hacer libros electrnicos de buena calidad y no sabe por dnde empezar.
Existen muchas maneras de obtener buenos resultados mediante el
escaneo; este documento le ensea un camino bastante fcil. En el tutorial
se muestran imgenes de apoyo para cada paso y supone que el usuario
est familiarizado con Windows. Seguramente necesitar descargar e
instalar algunos programas (vea dnde encontrarlos en el apndice A).
Nos enfocaremos principalmente a la digitalizacin de viejos libros de
ciencias, matemticas o tcnicos. Para este tipo de libros, no es
recomendable el sistema de OCR (Reconocimiento ptico de Caracteres),
porque dichos libros contienen abundantes ecuaciones, diagramas,
grficas, etc. La mejor solucin es escanearlo y crear imgenes de todas
sus pginas. La mayora de estos libros casi siempre estn impresos en
blanco y negro, quiz con unas cuantas pginas ilustradas en color. Con
libros de estas caractersticas, se logra la mayor calidad de escaneo si se
generan todas o casi todas las imgenes a 600dpi en blanco y negro. 1 Esto
quiere decir que deber escanear directamente en blanco y negro a 600dpi
o en escala de grises a 300dpi y luego procesar lo escaneado para
convertirlo a blanco y negro de 600dpi. 2 Si los libros tienen algunas
pginas con ilustraciones en color, habr que escanearlas por separado, a
300dpi en el modo color de 24 bits. Esto mismo se aplica para las
cubiertas en color que quiera incluir.
Considere esto:
Si no sabe qu significa 600dpi: esta es la llamada resolucin de la imagen y significa el nmero de puntos por
pulgada de la imagen (dpi = dots per inch) (ppp = puntos por pulgada).
2
A este procesamiento, cuando la resolucin de una imagen es incrementada, se le llama sobremuestreo.
Un ebook escaneado de alta calidad debe ser de tamao pequeo, con una
gran apariencia en pantalla y en hojas impresas, adems de tener textos
localizables. Existen muchas maneras para lograr eBooks escaneados de
alta calidad; todos los mtodos implican una resolucin de 600dpi. En
nuestro caso, los archivos finales quedarn en formato DJVU 3 y
generalmente ocuparn de 5KB a 10KB por pgina.
Claro que puede experimentar con otros programas que domine. Por
ejemplo, algunas personas utilizan PhotoShop con plugins especiales,
Book Restorer, Corel PhotoPaint, RasterID, tambin Matlab e IDLs para
procesado de imgenes. Este tutorial ofrece un mtodo concreto que
prcticamente garantiza buenos resultados. Si es novato, por favor haga
unos cuantos libros ajustndose a las instrucciones del tutorial. Ver
cmo alcanza un alto nivel de calidad. Si luego desarrolla sus propios
mtodos, por ejemplo aplicar otras opciones del ScanKromsator o el uso de
otros programas, ser capaz de decidir cul camino es mejor, puesto que
ya podr comparar la calidad de los otros resultados con la calidad de
referencia, obtenida por el mtodo sugerido en este tutorial.
Unas palabras de advertencia relativas al uso de FineReader para
escanear. Por favor no use FineReader para escanear y procesar ebooks!
El FineReader es un buen programa para hacer OCR solamente, pero no es
ptimo para escanear y procesar imgenes con la intencin de hacer un
ebook escaneado. Fine Reader trata de ofrecerle una solucin todo-en-uno,
para escanear y procesar eBooks; resista caer en esta tentacin, no use
solo un programa para hacer todo. No obtendr buenos resultados con
FineReader; en todo caso, no pierde nada con seguir este tutorial.
3
Si no sabe qu es el formato DJVU, por favor use el Google o consulte Wikipedia para leer sobre ello. El
formato DJVU fue desarrollado especialmente para almacenar imgenes escaneadas en archivos de alta
compresin. El formato PDF fue planeado para documentos creados en un procesador de textos, es decir, para
documentos vectoriales en lugar de documentos escaneados. Los eBooks en formato PDF ocupan mucho ms
espacio y lucen menos que los realizados en formato DJVU.
2. Escanear un libro
Tome un volumen grueso. Seguramente pensar que slo a un loco puede
ocurrrsele escanearlo pgina a pgina. Si, tiene razn! Pero usted puede
ser esa clase de loco capaz de escanear libros de cualquier tamao, sin
grandes incomodidades si organiza bien su trabajo.
Hasta ahora, slo al FineReader 9 se le ha agregado una opcin para desactivar esta auto-rotacin. Sin
embargo, FineReader 9 no puede ser usado (an) para producir capas OCR destinadas a archivos DJVU.
Figura 1: Dos imgenes de la misma pgina, una hecha con una cmara digital y la otra
con un escner barato de cama plana. La imagen hecha por el escner fue obtenida a
300dpi en escala de grises y remuestreada en blanco y negro a 600dpi. A ver si adivina
cul es! Recomendamos que siempre use un escner de cama plana y escala de grises a
300dpi o mayor resolucin.
Primera nota: Por favor no use una cmara digital para escanear libros!
Nunca obtendr buenos resultados as sea una cmara carsima de 10
Megapixeles o cualquier otra. Utilice un escner ordinario de cama plana;
incluso uno barato es apropiado. Lea el pie de la figura 1 y adivine cul de
las dos imgenes, obtenidas de la misma pgina, fue hecha con una
cmara digital.
Para escanear, necesita cualquier programa que trabaje con el controlador
TWAIN (Aplicacin estndar destinada a la adquisicin de imgenes con
un escner) del mismo escner. 5 Conviene que el programa sea capaz de
guardar imgenes en el disco duro numerando los archivos como 0001.tif,
0002.tif o p0001.tif, p0002.tif, etc., por cada pgina escaneada. Por
ejemplo, los visores de imgenes ACDsee, IrfanView o XnView tambin
sirven para escanear imgenes y guardarlas as. Tambin le podemos
La mayora de los escneres estn soportados por controladores TWAIN; para otros escneres es probable que
necesite controladores especiales.
Tpicamente, una pgina escaneada en escala de grises ocupar entre 2 y 4 megabytes del disco duro con la
compresin LZW.
7
Actualmente el formato JPEG no puede manejar imgenes en blanco y negro; cuando uno convierte imgenes
blanco y negro en JPEG, el programa habr de convertir las imgenes a escala de grises. Entonces la
compresin JPEG introduce cierta prdida de calidad, como se ve en la figura. La prdida de calidad en la
compresin JPEG es aceptable para fotografas, pero puede degradar significativamente los textos en blanco y
negro, a menos que se seleccione un modo JPEG de alta calidad. (La calidad de la compresin JPEG es
habitualmente seleccionable entre 1% y 100%. Las alteraciones se harn invisibles con calidades del 90% o
mayores. Pero algunos programas, especialmente los usados para crear archivos PDF o para optimizar
imgenes, no permiten que se configure manualmente la calidad de JPEG.)
Esta tcnica le permite escanear libros enteros, pgina tras pgina, sin
estar viendo constantemente la pantalla de la computadora o el teclado.
Hasta podr ver la TV o cualquier otra cosa mientras escanea. Segn la
velocidad de su escner, puede lograr entre 100 y 200 escaneos por hora.
Algunos escneres son particularmente rpidos (como el Plustek
OpticBook).
No es necesario colocar el libro sobre el cristal de manera que quede
totalmente derecho (el borde del libro con el borde del escner). Trate de
ponerlo razonablemente derecho, pero es inevitable que algunas pginas
escaneadas no queden derechas; es decir, algunas pginas quedarn
ligeramente torcidas. Esta pequea inclinacin es tolerable y ser corregida
posteriormente (al finalizar el escaneo) mediante software. La correccin de
esta inclinacin se conoce como deskewing (enderezado).
Cuando escanee evite inclinaciones muy grandes as como pginas
cortadas, en otras palabras, no deje texto fuera de la regin de escaneo.
Las arrugas en las zonas que rodean al texto a menudo dificultan el
escaneo. En esos casos pruebe escanear una pgina a la vez (en vez de las
dos pginas) o presione ligeramente ms fuerte sobre la cubierta del libro.
Es importante que el texto est en contacto total con el cristal de escner.
Una hoja que quede a 1 mm de distancia del cristal har que la imagen
escaneada se vea muy borrosa en casi cualquier escner!
Resulta ms rpido escanear un libro por pares de pginas, en vez de
hacerlo una por una. Sin embargo, no todos los libros podrn escanearse
de esta manera; algunos son muy grandes o no abren lo suficiente para
escanearse de dos en dos pginas. Haga pruebas y determine cmo
proceder. En todo caso, con el software de procesamiento podr cortar las
imgenes para dejarlas como pginas individuales.
En esta etapa, el resultado ser un directorio lleno de archivos TIFF. Estos
archivos son la materia en bruto que procesar al finalizar el escaneo.
Considere que necesita tener suficiente espacio en el disco para almacenar
8
Por favor no enve correos a Bolega para solicitarle ayuda, documentacin, cdigo fuente del ScanKromsator o
la adicin de nuevas caractersticas. En lugar de eso, aprenda a usar bien el programa y a crear eBooks de
buena calidad!
9
Aqu slo hablaremos de las funciones del ScanKromsator en forma muy reducida. Desafortunadamente este
programa an no cuenta con un manual de usuario que describa ampliamente todas sus funciones.
10
11
12
13
14
15
16
Para configurar una zona de ilustracin, haga doble clic sobre la regin
seleccionada. Aparecer la ventana de dilogo Picture zone properties
(Propiedades de la zona de ilustracin).
17
18
11
Existe tambin un paquete de software libre llamado DjVuLibre, pero no logra producir archivos DJVU bien
comprimidos.
12
Este es un paquete bastante grande; pero existe una versin desensamblada que ocupa slo unos 20 MB de
disco duro.
19
20
22
24
Primero debe definir las opciones para los hiperenlaces, as que especifique
el rango de pginas (
) en el que est localizado el ndice
general en el archivo DJVU. Estos son los nmeros de pgina DJVU, los
cuales pueden diferir de los nmeros impresos en las pginas del libro y
en el ndice general (esto se debe a la inclusin como pginas de las
cubiertas y las pginas preliminares). Para corregir esa diferencia,
generalmente agregaremos cierta compensacin a la numeracin de
pginas; por ejemplo, la pgina 10 en el impreso puede ser realmente la 11
en el archivo DJVU, porque la cubierta es considerada como una pgina. 15
Entonces necesita introducir la compensacin correspondiente en el
campo
14
15
25
26
Sitio de descarga
www.irfanview.com
www.djvu-soft.narod.ru
www.djvu-soft.narod.ru
www.djvu-soft.narod.ru
Condicin
Gratis
Gratis
Gratis
Pago
www.abbyy.com
djvuocr.ucoz.ru
www.djvu-soft.narod.ru
Prueba
Gratis
Gratis
27
ndice
calidad, 2
DJVU, 3, 18
diccionario, 19
capa OCR, 21
reorganizar pginas, 24
enderezado, 9
escaneo, 9, 10
espacio en disco, 9
escala de grises, 2
con cmara digital, 5
FineReader
problemas, 3
ilustraciones, 2
ilustraciones en color, 23
instantneas en ruso, 1
IrfanView, 6
JPEG, 6
alteraciones digitales, 7
problemas con textos, 7
kromsating, 11
ScanKromsator, 3, 10
cortadores, 12
ejecucin en borrador, 11
ejecucin definitiva, 16
zona de ilustraciones, 17
sobremuestreo, 2, 16
TIFF, 6
uso de Linux, 27
28