P. 1
Cómo Escanear Y Aplicar Ocr A Libros

Cómo Escanear Y Aplicar Ocr A Libros

5.0

|Views: 7.624|Likes:
Publicado porCursos Voz

More info:

Published by: Cursos Voz on Aug 20, 2008
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

06/18/2013

pdf

text

original

Realizar OCR a libros: Reconstruir desde cero

por Mordekainen [Marzo 2002]
Este es un breve manual para realizar OCR a libros con una maquetación/formato razonablemente complejo y/o imágenes incrustadas. Por favor, ten en cuenta que existen muchas otras técnicas y que libros más sencillos pueden ser OCR con buenos resultados pasándolos directamente a PDF. Reconstruirlos desde cero es una forma de escanear que consume tiempo (y paciencia). Estas son algunas de las cosas que he descubierto y no una biblia que seguir al pie de la letra. Nota Final: Aunque lo presento como pasos a seguir, no es necesario que se sigan en el orden que aparecen. Puedes escanear varias páginas, trabajar con ellas, hacerles OCR y luego escanear más páginas y repetir el proceso. SOFTWARE Hay muchas aplicaciones que hacen lo mismo (o similar) que las aplicaciones a las que me voy a referir. Uso Paint Shop Pro, ReadIris, Microsoft Word y Jaws PDF Producer. Cuando trabajes con imágenes, probablemente trabajarás con JPG. Debes encontrar una tasa de compresión que te dé una buena calidad y el archivo no sea demasiado grande. Suelo preferir mejor calidad a menor tamaño, pero ten cuidado si tu libro tiene muchas imágenes. Siempre puedes guardar las imágenes importantes con mejor calidad donde, como se dice en la industria, el arte de relleno puede sacrificar más en términos de calidad. ESCANEAR El consejo principal es encontrar la relación correcta entre brillo y contraste. La única forma de hacerlo es mediante pruebas. Lo que quieres es ver la página, sin tener que ajustar la configuración del monitor. También recuerda que es más fácil de corregir si la imagen tiene más brillo que darle brillo a una imagen oscura. Las cubiertas siempre son en color, así que deberías escanearlas a 150 dpi en color a menos que quieras hacerle OCR a cualquier texto que aparezca en ellas (nombre de autor...). En ese caso, escanéalas a 300 dpi pero en la mayoría de las situaciones con una simple imagen para las cubiertas basta. No olvides la cubierta trasera. Ya que el escaner proporciona la fuente, querrás alinear el libro correctamente para evitar la rotación pero lo que debes evitar es inclinar la página (por ejemplo, presionar más al final de la página que en el principio) ya que la rotación se puede arreglar con un programa de retoque. Ahora, para escanear el libro en sí, examina las páginas. Si ves algún gráfico que se repita en el libro en los márgenes, necesitarás escanear una página (o una par y otra impar) con el propósito de conseguir dichos márgenes. Elige la/s página/s que mejor se adapte. Esto dependerá del libro. En algunos, estará al principio (o al final), en otros, por la mitad del mismo. Como las cubiertas, evita la rotación y la inclinación: recuerda que estos gráficos se utilizarán en todo el libro, así que deben ser buenos. A 150 dpi, está bien. CONSEJO: No olvides los extractos de la web. Normalmente tienen la misma apariencia que el libro y eliminarán parte del trabajo simplemente capturando las imágenes de ahí. No te preocupes del resto de la página, sólo concéntrate en los márgenes. Una vez hecho, abre las imágenes en Paint Shop Pro y selecciona con cuidado las partes relevantes, guardándolas en archivos distintos. Si un libro tiene un gráfico que está presente arriba, abajo y al lado del texto, deberías guardarlo en tres archivos distintos para evitar un tamaño redundante. Con los gráficos (márgenes) repetitivos hechos, escanea el libro. Página a página, si la página sólo tiene imágenes (aparte de los márgenes) deberías escanearlos a 300 dpi (si la imagen está en color, claro) o 300 dpi en escala de grises. Sólo escanea en blanco y negro si la imagen tiene sólo dos colores. Si

hay dudas, en escala de grises.

Si la página sólo tiene texto (aparte de márgenes, etc), escanea a 300 dpi en escala de grises o 300-600 dpi blanco y negro (depende del fondo, fuente... experimenta hasta que encuentres cómo queda mejor). Bien, ahora tienes todas las páginas escaneadas dependiendo de si hay imágenes o no. con esto en mente, carga todas las páginas con imágenes en el PSP y recórtalas con cuidado y guárdalas por separado. Dependiendo del libro tendrás que reducir el tamaño de la imagen (ver más abajo). OPCIONAL: Ya que tienes los márgenes guardados (¿no?), puedes eliminarlos de todas las páginas. Así consigues que el programa de OCR detecte con facilidad la maquetación de la página. ROTACION/INCLINACION: Si cualquier página está rotada, puedes arreglarlo con PSP. La mayoría de los programas de OCR permiten 4 rotaciones (bastante restringido) pero úsalo si quieres rotar una página 0.5 grados para evitar problemas de OCR más tarde (sobre todo si está a dos columnas). La inclinación o el exceso de presión es más difícil y es mejor reescanear las páginas problemáticas. REALIZAR OCR Necesitarás un poco de práctica aquí (para ver si 300 dpi en escala de grises funciona mejor que 600 blanco y negro, por ejemplo) para conseguir resultados óptimos. Introduce las páginas en el programa. Si proporciona aprendizaje, ¡USALO! Comprueba que el sistema de autodetección funciona correctamente, arreglando los posibles problemas que puedan surgir. Lo que quieres es guardar el texto/tablas tan cerca del original como sea posible. Exporta el resultado a .TXT. RECONSTRUIR La primera consideración es de fuentes. Deberías tener las mismas fuentes (si es posible) o muy similares. Esto te evitará problemas si quieres que cada página parezca del original. CONSEJO: Si hay extractos en la web que puedas abrir con Acrobat y (si la configuración de seguridad lo permite) usa la herramienta de Retoque de texto para ver qué fuente se ha usado en cada párrafo. Crea un documento de Word (o de cualquier otro). Crea una plantilla para ahorrar tiempo y esfuerzo y también para reducir el tamaño final del archivo. La plantilla se compone de una o varias páginas que tendrán los gráficos de los márgenes en su sitio. También puedes poner cuadros de texto con el número de página para que cambie automáticamente. Sitúa los márgenes tan cerca como puedas del original (utiliza una regla). Si el libro usa diferentes gráficos para los márgenes para las páginas pares e impares, asegúrate de elegir "diferentes en páginas pares e impares" en las opciones de encabezado y pie de página. Columnas... Ahora, pon el modo de encabezado y pie de página. Inserta las cuadros de texto de los gráficos de margen y cualquier número de página, número de capítulo, etc. De esta forma, cada página utilizará automáticamente el mismo gráfico reduciendo el tamaño del archivo y sin que tengas que ponerlos tú. Ahora empieza con el libro. Ten en cuenta dos detalles muy importantes en la apariencia final. Si hay alguna página sin los gráficos repetitivos (las cubiertas, por ejemplo) elige INSERTAR->ROMPER->ROMPER SECCION. Así tendrás una página nueva sin los mencionados gráficos. Comienza insertando el texto desde el .TXT en el documento. Mantén el PSP abierto en modo explorador para que puedas abrir rápidamente cualquier página relevante. Cuando una página tenga una imagen, insértala. Doble click y reduce su tamaño. Asegúrate de que está cerca del 100%. Si la imagen es mayor de lo necesario, ábrela en PSP y redúcela de forma acorde. Maqueta el texto con las fuentes y colores correctos y una separación de líneas similar (en propiedades de párrafo). CONSEJO: ¡Los estilos de texto son tus amigos! Por ejemplo, si el libro divide el cuerpo de texto por cabeceras usando Verdana a tamaño 16, en rojo y negrita, crea un estilo con estas propiedades para que en cada encabezado sólo tengas que seleccionar "mi estilo" y ya está.

Para páginas con algo de texto (como tablas) que no se correspondan con la apariencia general, usa cuadros de texto. Sigue así hasta que termines el libro. CREANDO EL PDF Utilizo JAWS porque siempre crea archivos de tamaño muy pequeño. Necesitas crear una tarea eligiendo las opciones. Las que uso yo son (si no las menciono, se asume que están deshabilitadas): GENERAL: PDF file format: v1.3 Thumbnail: Ninguno (a mucha gente le gusta, pero para mí sólo añade tamaño al archivo sin beneficios reales - imprimo los libros, no destrozo mis ojos intentando leer libros en la pantalla. Por la misma razón no hago marcadores) Resolution: 72 (esto sólo se aplica al gradiente. Si utilizas muchos de ellos o mayores increméntalo a 150 para mejorar la calidad de la impresión) Advanced Transfer Functions: Apply Convert CMYK to RPG Convert divide independent... COMPRESSION Color Images: Bicubic, 150, JPG low compression Greyscale: Bicubic, 150, JPG low compression Monochrome: Subsample, 300, CCITT Group 4 Compress Text FONT EMBEDDING Never Embed: Tahoma, Times New Roman, Wingdings Embed all fonts (except base 14 fonts) Subset fonts COMENTARIOS ¡Finalmente comprime en .RAR el archivo! Si utilizas JAWS no conseguirás mucha mejora pero no supone un gran trabajo para ti y puede ayudar a mucha gente. Como caso extremo, la Campaña Revisada de Dark Sun ocupa 22.5 MB en PDF pero ¡sólo 14.4 en .RAR! De todas formas, la práctica hace mejorar. Esta técnica demanda tiempo y trabajo duro pero puede conseguir grandes resultados difícilmente alcanzables con PDF OCRing. Simplemente asegúrate de que el libro en el que trabajas realmente merece este trabajo. Para cualquier sugerencia o pregunta respecto a lo anterior puedes ponerte en contacto conmigo en DalNet's #RPGBookz o Nullus's #BW-RPG. Diviértete y buena suerte con tus proyectos.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->