Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Varios - Digitalizar Libros Y Revistas For Dummies PDF
Varios - Digitalizar Libros Y Revistas For Dummies PDF
Comics
Este tutorial fué realizado para a BJA Biblioteca Jurídica Argentina, grupo
dedicado a la digitalización de bibliografía Jurídica y de Ciencias Sociales.
http://bibliojuridica.my-webs.org
http://hansi.libroz.com.ar (Español)
Estos sitios son una referencia, existen miles de sitios, y todos los días aparecen nuevos.
El punto es ... como aparecen los libros digitalizados ?. La respuesta es muy simple, la
mayoría son las ediciones digitales de los libros de papel distribuidas por las mismas
editoras en formato electrónico, y por otra parte se encuentran los libros que son
digitalizados "manualmente" por entusiastas de la digitalización.
A FAVOR
1) Los libros ocupan pocos Kbs.
EN CONTRA
1) El OCR no es 100% confiable, como el resultado de la edición manual.
2) Demora muchísimo tiempo la corrección manual que implicar leer todo el libro para
corregir errores.
3) No coincide la numeración de páginas entre el libro original y el libro digital.
Este método es el utilizado por casi todos los grupos de digitalización, del IRC o
YAHOO.
OCR IMAGEN
El problema para el grupo era que la corrección manual del OCR implicaba que se
demoraba hasta 3 meses para tener listo un libro. Principalmente porque las notas al pié
de página debían ser casi en todos los casos escritas desde cero. Esto es una norma para
casi todos los libros científicos en los que las citas al pié son varias y extensas. Ademas
los profesionales debemos citar las fuentes, lo que obliga a indicar además de la obra la
página donde se encuentra el texto o referencia.
EN CONTRA
No tiene ninguna contra, pero podría decirse que los libros en OCR IMAGEN ocupan
un poco más que los de OCR TEXTO, pero eso hoy no es un inconveniente con el
ancho de banda disponible.
Herramientas necesarias:
* Scanner
* Software OCR para reconocimiento de textos (esta guía está basada específicamente
en el programa “Abbyy Fine Reader versión 7 multilenguaje” (en adelante ‘FR’) por su
versatilidad para procesar y reconocer textos escaneados, aunque puedes utilizar
cualquier otro -incluso el que ha venido seguramente con tu escáner- salvando las
diferencias entre uno y otro)
* Procesador de textos Word 2000
1. Escaneando
El primer paso es acceder a la interfase del scanner desde dentro del FR para luego
comenzar a escanear las páginas a 300 dpi en modo “solo texto” (evitando los modos de
“escala de grises”, “RGB color”, y cualquier filtro de destramado) con un rango tonal
tirando a claro para evitar sombras e imperfecciones. Los 300 dpi son para obtener un
tamaño de letra considerable, de modo que sea fácil de reconocer para el OCR.
Si el tamaño del libro lo permite, escanea de dos páginas a la vez en sentido horizontal a
la cama del escáner. FR tiene la opción de escanear múltiples páginas, enumerando
automáticamente las imágenes. Para lograr esto, accede a las Opciones del programa, y
en la solapa “Digitalizar imagen” marca la casilla de ‘Separar páginas dobles’. Marca
también la opción de ‘Detectar orientación de imagen’, asegurándote de poner la página
de numeración inferior en el ángulo de inicio de escaneo (generalmente es la esquina
superior izquierda de la cama del escáner), con el fin de que FR ordene la numeración
de las imágenes adecuadamente.
Antes de indicarle al programa que reconozca el texto, hay que definir en cada página
las áreas o bloques de texto que se deseen reconocer (en caso contrario, el programa no
las procesará). Esto puede hacerse manualmente página por página (menú Procesar >
Analizar distribución; Ctrol+E), o automáticamente y para todas las páginas
(Ctrol+Shift+E).
En el caso del análisis automático, una vez que FR ha definido las áreas de
reconocimiento se recomienda:
* eliminar del mismo los números de página, los cabezales y pies de página.
* corregir aquellos errores que FR hubiera interpretado como dibujos o textos.
* corregir los bloques de texto que FR hubiera podido saltearse.
* verificar el orden de los bloques de texto a reconocer.
Para esta altura ya se le puede dar la orden al programa de reconocer (”leer”) todas las
imágenes (Ctrol+Shift+R). Opcionalmente, se pueden reconocer páginas individuales
(Ctrol+R) o un bloque de texto en particular (Ctrol+Shift+B).
Una vez que FR terminó de reconocer todo el texto, es necesario recorrer página por
página revisando las marcas celestes. Puede que una palabra marcada con este color esté
bien escrita, en ese caso no es necesario hacer nada. Caso contrario, puedes verificar el
error viendo la ampliación de imagen que aparece en la ventana superior y corregirlo.
Esta etapa es muy importante ya que el FR puede detectar errores que el Word no puede
reconocer.
Párrafos interrumpidos
Debido a que el libro tiene dimensiones diferentes a la de un documento en pantalla y
usa diferentes tipografías y tamaños, el texto reconocido y cargado en Word se
presentará con párrafos interrumpidos. Para detectarlos rápidamente puedes realizar una
búsqueda avanzada. Presiona Ctrol+B para abrir el cuadro de Búsqueda, habilita las
opciones avanzadas y pulsando “Especial” seleccionas el item de [cualquier letra] y
luego el de [marca de párrafo]. En la línea del buscador, aparecerá lo siguiente:
^$^p
También deben buscarse las líneas truncas luego de una coma, punto y coma, y dos
puntos, ingresando:
,^p
;^p
:^p
respectivamente.
Diferenciar y jerarquizar los títulos y subtítulos para diferenciarlos del resto del texto
La única manera de chequear esto es recorrer el texto entero. Lo más conveniente es
asignarle un estilo a los títulos y otro a los subtítulos, definiendo un estilo diferente (por
tipografía y tamaño) al del texto general y al de cualquier otro estilo usado.
Un problema frecuente es que Word muestre los nombres propios como errores, ya que
por lo general no se encuentran en su diccionario. Para evitar esto, al llegar a un nombre
propio, indicale la opción de ‘Omitir todos’ de manera que no vuelva a preguntar por lo
mismo. Aplícalo también con palabras raras o propias del texto.
8. Corrección por lectura
Si el error está en el original impreso en papel (porque sucede que aún en estos casos
haya errores de tipeado, párrafos cortados y hasta incluso omisión de páginas), entonces
la máquina no podrá ayudarnos. En este sentido es importante hacer una corrección a
conciencia, a pesar de que ello implique tiempo y dedicación extra. Por eso es
conveniente trabajar con libros ya leídos y que sepamos que no tengan grandes errores
en su impresión, por lo que tranquilamente se podrá saltear este paso.
Notas finales
Una vez que tienes listo el texto, guardalo preferentemente en formato .rtf. La ventaja
de este tipo de archivos es que conservan el formato del documento original,
pudiéndose abrir en prácticamente cualquier procesador de textos, independientemente
de su versión e incluso en múltiples plataformas (PC/Mac). También puedes convertirlo
a formato .pdf para su publicación, si es que tienes las herramientas necesarias y estás
seguro de que el texto no contiene errores, ya que una vez publicado, este formato no
admite modificaciones.
Un último consejo: lo mejor es organizarse con otras personas que tengan fines
comunes y que cada una se ocupe de una tarea específica. Es decir, que alguien se puede
ocupar del escaneo y OCR, mientras que al finalizar algun otro puede hacerse cargo de
la etapa de corrección, otro del trabajo en Word, revisión, etc.
Para digitalizar un libro hacen falta el software Abby Fine reader 7 y paciencia.
Nosotros establecimos un estandart a 300 dpi en blanco y negro. Con eso escaneamos
todo el libros salvo las tapas que las escaneamos a color.
Lo primero que haremos es crear un nuevo batch (lote en castellano), para que todo tu
trabajo quede en una sola carpeta y no se te vayas a confundir con otras imágenes que
puedas tener.
Guarda el batch, esto es muy importante para que no vayas a perder ningún archivo en
el proceso.
Si por alguna razón debes parar tu trabajo y seguir más tarde u otro día, después sólo
será cosa de que abras este batch con el FR y recomenzar donde quedaste.
Ahora viene el momento de comenzar el scan. Lo primero que tienes que hacer es
señalarle algunos parámetros a FR para que salga bien tu trabajo y sea más fácil.
Selecciona “Split dual pages”, asi el programa dividirá automáticamente las páginas de
los libros cuando estos los escanees de a dos páginas a la vez. Ojo: si el libro es muy
grande y sólo puedes escanear página a página no es necesario que selecciones esta
opción.
En este caso, la mejor opción de trabajo es seleccionar en el ícono que te aparece arriba
“scan multiple images”, asi el programa comenzará automáticamente a escanear todas
las páginas que sea necesario, y sólo se cerrará una vez que tú manualmente se lo
indiques cuando ya esté todo el libro en formato de imágenes.
Las opciones de scan van a variar de acuerdo a las especificaciones de tu scanner. Aquí
nosotros recomendamos usar el controlador propio de cada aparato. Si no sabes usarlo
recurre a los manuales que deben haber venido con tu scanner.
El scan debe realizarse: en blanco y negro, resolución de 300 dpi, cuidando de que las
imágenes no salgan ni muy claras (porque se pueden perder contenidos) ni muy oscuro
(porque pueden aparecer muchas manchas)
Primero ver si el libro se puede escanear a página doble sin que sobresalgan márgenes.
MUY MAL: queda muy abierto y genera una franja negra que puede superponer texto
entre las dos páginas.
El lomo del libro tiene que estar siempre lo más bajos posible, para evitar la franja negra
que se produce por dejar espacio.
Los libros a escanearse a página simple. Son aquellos libros que no pueden escanearse a
página doble por el formato propio del libro, ya que supera el formato A4, esto implica
escanear hoja a hoja. Este proceso importa dubplicar el tiempo de escaneo, veamos la
secuencia:
Lo mejor es siempre sacarle la tapa al escanner o desarmarlo para trabajar con mayor
comodidad.
Una vez tengan todo el libro escaneado, guarden el lote por seguridad.
Lo ideal resultaría que el libro abierto a doble página encaje perfectamente dentro del
campo del scanner y de la hoja A4, sin que sobresalgan márgenes laterales, inferiores o
superiores.
Lo ideal siempre resulta que se puedan escanear a pagina doble, pero en muchos casos
no resulta posible ya que el tamaño de las hojas del libro no lo permite, y el escaneo
debe realizarse página a página.
El standart para escanear libros a página doble es sobre un libro de 23 x 16 cm. si las
dimensiones son mayores el libro debe escanearse página a página.
Digitalizar un libro como todas las cosas implica un proceso de apredizaje, lo que nos
lleva a sugerir que sus primeros libros digitales deben ser de pocas páginas, entre 100 y
300. Esto tiene su razón para familiarizarse con el escaner que utiliza y el tiempo que
este demora entre pasada y pasada, y practicar constantemente la forma de encuadrar
perfectamente el libro dentro de la superficie de escanner en el breve lapso de segundos
que le toma al escanner hacer otra pasada para escanear.
Sus primeras digitalizaciones tendran errores, hojas que no se ven bien por eso hay que
practicar y practicar hasta que Ud. pueda escanear un libro y al mismo tiempo leer otro
en la pantalla, navegar por internet o ver un DVD, una vez que se familiarice con los
libros y con su escanner, verá que no hay límites para digitalizar, solamente el tiempo
que desee invertir en ello.
Los libros nuevos suelen implicar un trabajo extra ya que para abrirlos bien a doble
página sobre la superficie del escanner se debe aplicar un esfuerzo superior ya que su
encuadernación se encuentra virgen, sin aperturas, en cambio los libros ya usados y
abiertos son muy fáciles de exponer sobre el escanner.
Si el subrayado fué realizado con tinta, y el mismo permite la lectura y las hojas
subrayadas no superan el 10% del total de
hojas de la misma, se acepta, hasta que se consiga un obra sin subrayar o en mejor
estado.
Pero para hacer un cálculo promedio un escanner demora entre cada pasada entre 12 y
20 segundos, demora el mismo tiempo ya
sea una página simple o doble, ya que la pasada la realiza sobre toda la superficie
expuesta del escanner.
Existe una gra diferencia de velocidad entre los escanners que se conectan en puerto
paralelo y los USB, la recomendación es
que se tenga instalado por sistema operativo Windows XP y un escanner USB con eso
la velocidad aumenta considerablemente,
utilizar Windows 98 o un escanner por puerto paralelo ralentiza todo el proceso.
Una buena opción es comprar un escanner HP 1410 que es muy rápida y económica
alrededor de los $ 200, una multifunción que como impresora es un excelente escanner.
No sirve como impresora pues consume mucha tinta (que encima es costosa) pero el
escanner no necesita de tinta
Tenemos entonces para empezar digamos en el peor de los casos 20 segundos por cada
2 páginas, eso hace 6 páginas por minuto, 60 páginas cada 10 minutos, y 360 por hora.
POR 12 SEGUNDOS:
POR 16 SEGUNDOS:
POR 20 SEGUNDOS:
Si. Los libros se escanean desde su tapa a color hasta la última página, no importa que
tenga páginas en blanco al principio o al final, la digitalización implica copias digitalies
exactas del libro. Las copias deben ser exactas por el hecho que los libros son utilizados
para realizar citas textuales, indicando en número de página, que de otra manera
perderían su valor.
01. captura
Éste es realmente el paso más importante de todos. Para una página de tamaño normal
de comic, escanea la imagen a 300 dpi. Aunque la imagen luego se vaya a reducir el
resultado es notablemente mejor de esta manera. Para cambiar el tamaño de una imagen
es necesario ir al menú: image > image size. En resolution asegurarse de que el valor
está en pixels/inch y cambiar donde pone 300 por 150. Al hacerlo es importante también
comprobar que esté activado resample image:bicubic, para que cambie el tamaño en
pixels y no sólo en valores de impresión.
Es importante escanear con unos valores de brillo y contraste neutros, si el comic resulta
claro u oscuro ya se utilizarán más tarde herramientas para corregirlo, las herramientas
de corrección de brillo y contraste automáticas suelen dejar el comic demasiado
contrastado y con detalles empastados. Otra razón de utilizar valores neutros es para que
a la hora de corregir o mejorar la imagen se utilicen los mismos valores para todo un
comic en vez de hacerlo página por página, pero principalmente los niveles automáticos
o Autolevels quedan fatal especialmente en escaneos de papel normal. Una vez reducido
el tamaño se le puede aplicar un filtro que da muy buen resultado: el filtro unsharp
Mask (Máscara de enfoque). Aplicado con los valores: cantidad: 50% y radio:1px
02.Giro y recorte
Filtros de "mejora"
Niveles
Es aquí donde el programa echa el resto en capacidad de mejora de una imagen. Hay
una regla principal: NADA DE AUTOLEVELS. El cuadro de diálogo niveles image >
adjustments > levels (Ctrl+L) permite corregir la gama tonal y el equilibrio de color de
una imagen ajustando la intensidad de las sombras, los medios tonos y las luces de una
imagen, permite modificar la imagen en general (RGB), o cada canal de color por
separado (Rojo, Verde, Azul). El histograma sirve como guía visual para ajustar la
tonalidad.
En un comic de papel normal, la imagen aunque sea buena se puede mejorar aplicándole
unos ajustes de niveles en un solo paso. Vamos a ver como trabajan los niveles sobre un
ejemplo:
Imagen Original
Modificada
En el canal RGB llevamos la flecha de la izquierda hacia la derecha (1) esto acerca los
tonos oscuros al negro, no lo llega a alcanzar para no forzar los tonos. La flecha de en
medio (2) la llevo ligeramente a la izquierda, esto aclara los tonos medios, que se han
oscurecido en el paso (1). La flecha de la derecha (3) la llevo ligeramente a la izquierda,
esto quita textura del papel, pero debe hacerse con cuidado, puedes quitar detalles del
dibujo. Por último en el canal Azul llevo la flecha de la derecha (4) hacia la izquierda
para quitar un ligero tono amarillento típico de ese papel.
Original
04.Acciones
Una acción es una serie de comandos que puedes reproducir en un fichero o en varios.
La mayoría de comandos y herramientas se pueden grabar en acciones. De lo que se
trata es de una vez capturada la página podamos automatizar todas las tareas para que el
trabajo de escaneo requiera el menor esfuerzo consiguiendo los mejores resultados. Lo
primero de todo es planificar bien el trabajo con antelación: escanear una página de
ejemplo para comprobar la resolución y si la imagen necesita mejorar la tonalidad, Los
comic impresos en buenos papeles no suelen necesitar mucha corrección tonal. Un
consejo para probar valores de corrección: puedes duplicar la capa (En la pestaña
Layers pinchas en la capa y arrastras al botón create new layer.) aplicar valores y así
comprobar fácilmente las diferencias haciendo clic en el ojo de la capa. Como método
personalmente prefiero escanear, corregir inclinación, bajar resolución, aplicar mascara
de enfoque y guardar imágenes en formato TIFF, con las imágenes guardadas escojo los
valores de corrección de niveles y curvas y aplico una acción a todo el directorio que
corrige niveles y guarda JPG calidad 7-8 dependiendo del comic. Este método permite
comprobar todo el trabajo de una vez y corregirlo fácilmente sin tener que escanear de
nuevo.
Acción de ejemplo
Para crear una acción capturamos una imagen, nos vamos a window>actions (F9) para
que nos aparezca la pestaña de acciones le damos a la flechita (1) y a new set para crear
una carpeta con las acciones que vamos a utilizar con el nombre comic.
Le damos al botón create new action (2) y automáticamente se queda activado el botón
de grabar, lo que hagamos a continuación formará parte de la acción. Una vez rotada la
imagen, le bajamos la resolución, la recortamos con la herramienta crop, le aplicamos el
filtro unsharp mask y la grabamos como Tiff. le damos al botón stop de la pestaña de
acciones, para parar la grabación, y a continuación señalamos aquellos pasos de la
acción (3) cuyos valores cambian con cada imagen, es decir: rotar, recortar y guardar,
cuando la acción se reproduzca en una imagen, nos preguntará los valores, en el caso de
crop nos aparecerá el tamaño de marco de la acción grabada, esto está muy bien, porque
así todas las paginas de un comic tendrán el mismo tamaño, si queremos, para guardar,
nos preguntará el nombre del fichero. Si el comic no necesita corrección tonal, podemos
guardar en jpg tal cual en este paso y no continuar, pero si al comic le viene bien un
lavado de cara guardamos en tiff todo el comic, abrimos una página de ejemplo y le
aplicamos las herramientas de corrección tonal grabándolas en una acción. Una vez
hayamos creado todo un set de acciones y tengamos previamente guardado en una
carpeta el comic en cuestión, nos vamos a File>automate>batch donde le decimos la
acción que debe ejecutar en la carpeta seleccionada, la acción aplicará los ajustes en
todo el directorio de imágenes grabándolas en el formato que hayamos escogido
previamente en la acción.
05.Formatos de grabación
Entendiendo que vamos a grabar las imágenes para que se puedan ver con el Comic
Display Reader hay tres formatos en los que se puede grabar una imagen: JPG, GIF y
PNG. Para imágenes en color el JPG es el adecuado. El formato PNG y GIF son
adecuados para imágenes en blanco y negro. Para escanear comics en blanco y negro es
recomendable escanear en escala de grises, 256 bit de grises, nunca imagen en B/N de 1
bit de color. Corregimos niveles de la misma manera que lo hacemos como una imagen
en color, procurando no contrastar mucho la imagen para que los bordes no se queden
pixelados y para grabar podemos hacerlo de dos maneras: En Photoshop File > Save for
Web escogemos el formato PNG-8 y guardamos la imagen. Para guardar en GIF
convertimos la imagen de escala de grises a RBG y luego a indexado: image > mode >
indexed color con los valores: palette: local (adaptive) colors: 16 forced: black and
white, con tansparency desactivado y dither: diffusion, y guardamos en GIF, apenas hay
diferencia de tamaño entre GIF y PNG, lo importante es no guardar una imagen sin
color en JPG, porque ocupará mucho más que en los otros dos formatos y no se verá
mejor. Las imágenes que no contienen color, pero tienen muchas tonalidades distintas
de grises es preferible grabarlas como JPG, ya que en esos casos el tamaño del fichero
GIF y PNG puede superar al JPG. Photoshop ofrece tres maneras de grabar el JPG:
baseline (standard) baseline optimized y progressive. El progressive tiene un
entrelazado que permite previsualizar la imagen antes de que termine de cargar, debe
evitarse grabar en progressive por dos motivos: a) Hace el fichero de mayor tamaño de
lo que debería ser. cool.gif Es molesto ver la previsualización cuando te desplazas o
cargas la imagen y tarda más.
06.Otros procedimientos.
Hay una serie de problemas comunes a los que nos enfrentamos los escaneadores,
intentaré aportar unas soluciones que te ofrece la aplicación. A partir de ellas podremos
afrontar nuevos problemas mucho mejor.
Páginas dobles
Para la situación "a" pongamos que tienes las dos imágenes abiertas, seleccionas una
(Ctrl+a) y la copias (Ctrl+c) vas a la otra imagen, maximizas la ventana, con la
herramienta lupa (z) haces un zoom hacia atrás hasta que veas la imagen completa en
pequeñito (alt+click) y escoges la herramienta crop (c). Pinchas en uno de los tiradores
hasta agrandar la imagen a más del doble hacia el lado en el que quieres poner la
segunda página. Pegas la página que tenías en el portapapeles (Ctrl+v) y con la
herramienta move tool (v) vas ajustando. Con las flechas de dirección puedes mover
pixel a pixel hasta que ajuste. Para la situación "b" una solución elegante es al ajustar
dejar un espacio en blanco en medio para suavizar las diferencias.
Bordes de página
Una vez que tenemos cargada la selección aplicamos niveles (Ctrl+L) arrastrando la
flecha de la derecha hacia la izquierda hasta eliminar por completo el gris de fondo
controlando también los tonos de la imagen para tratar de ajustar lo mejor posible el
resultado.