Este tutorial fué realizado para a BJA Biblioteca Jurídica Argentina, grupo dedicado a la digitalización de bibliografía Jurídica y de Ciencias

Sociales. http://bibliojuridica.my-webs.org El futuro del libro es electrónico. Y ya llegó. La masiva digitalización, almacenamien to y distribución de libros en la red de redes es un hecho. Existen muchos sitios de libros electrónicos entre los que recomiendo: http://hansi.libroz.com.ar (Español) Estos sitios son una referencia, existen miles de sitios, y todos los días aparece n nuevos. El punto es ... como aparecen los libros digitalizados ?. La respuesta es muy si mple, la mayoría son las ediciones digitales de los libros de papel distribuidas por las mi smas editoras en formato electrónico, y por otra parte se encuentran los libros que son digitalizados "manualmente" por entusiastas de la digitalización. La digitalización manual si bien no es compleja, tiene sus trucos. Existen 2 tipos de digitalización manual, el OCR TEXTO y el OCR IMAGEN. OCR TEXTO Este es un método prehistórico, que se implementó cuando se comenzaron a aparecer los scanners de puerto paralelo y bajo Win98, cuando el ancho de banda también era una gran limitación. El método implica los siguientes pasos: 1) Escanear el libro completamente. 2) Realizar el OCR. 3) Corregir a mano el resultado del OCR. 4) Convertir el resultado en archivo DOC, RTF, TXT, LIT o PDF. A FAVOR 1) Los libros ocupan pocos Kbs. EN CONTRA 1) El OCR no es 100% confiable, como el resultado de la edición manual. 2) Demora muchísimo tiempo la corrección manual que implicar leer todo el libro para corregir errores. 3) No coincide la numeración de páginas entre el libro original y el libro digital. Este método es el utilizado por casi todos los grupos de digitalización, del IRC o YAHOO. OCR IMAGEN Esta forma de digitalización, surge de un grupo dedicado a la digitalización de libr os de derecho llamado Neopanopticum que luego se llamó El_panoptico y que hoy se llama BJA - Biblioteca Jurídica Argentina. El problema para el grupo era que la corrección manual del OCR implicaba que se demoraba hasta 3 meses para tener listo un libro. Principalmente porque las nota s al pié de página debían ser casi en todos los casos escritas desde cero. Esto es una norma para casi todos los libros científicos en los que las citas al pié son varias y extensas. Ademas los profesionales debemos citar las fuentes, lo que obliga a indicar además de la obra la página donde se encuentra el texto o referencia. La digitalización de OCR TEXTO no mantiene excatamente la correlación de las páginas con las del libro original. En razon de este problema se cambió completamente el sistema de digitalización,

FR comenzará a escanear una imagen detrás de otra -sin preview.Fuente: http://www. pero eso hoy no es un inconveniente con el ancho de banda disponible. “RGB color”. y cualquier filtro de destramado) con un rango tonal tirando a claro para evitar sombras e imperfecciones. 2) Recortar las imágenes de cada página eliminando margenes inútiles. puedes dejar marcada la opción de ‘Pausa entre páginas’ y especificarle el tiempo que creas adecuado. En la solapa de ‘Digitalizar…’ también asegúrate de marcar las casillas de ‘Convertir imágenes en color o escala de grises a blanco y negro’ y ‘Limpiar imagen’. Escaneando El primer paso es acceder a la interfase del scanner desde dentro del FR para lu ego comenzar a escanear las páginas a 300 dpi en modo “solo texto” (evitando los modos de “escala de grises”. Pero antes de realizar ese paso. A medida que se escanean las diferentes páginas. pero podría decirse que los libros en OCR IMAGEN ocupan un poco más que los de OCR TEXTO.ar Herramientas necesarias: * Scanner * Software OCR para reconocimiento de textos (esta guía está basada específicamente en el programa “Abbyy Fine Reader versión 7 multilenguaje” (en adelante ‘FR’) por su versatilidad para procesar y reconocer textos escaneados. sobre todo el de ‘Brillo’ (nivel de umbral). accede a las Opciones del programa pulsando ‘Ctrol+Shift+O’ y en la solapa de ‘Digitalizar imagen’ marca la opción ‘Usar Interfaz de FR’. Si tu escaner es muy rápido. aunque puedes utilizar cualquier otro -incluso el que ha venido seguramente con tu escáner.katarsis-net. Para ello. te puedes va ler de la interfaz de escaneo que trae incorporada el FR en lugar de la de tu escáner.haciendo el proceso mucho más rápido que escaneando las páginas una por una manualmente. EN CONTRA No tiene ninguna contra. escanea de dos páginas a la vez en sentido horizo ntal a la cama del escáner. 3) Realizar el OCR. Haz las pruebas que creas convenientes hasta obtener un buen resultado de imagen y mantener el ritmo adecuado de escaneo. y luego pulsa el botón de ‘Configuración del escáner’ para hacer los ajustes necesarios. 4) Convertir el resultado en PDF. A FAVOR 1) Los libros son una copia exacta del original. y . FR tiene la opción de escanear múltiples páginas. de manera de tener el tiempo suficiente como para sacar el libro del escaner. Lo más recomendable es escanear todo el libro ‘de un tirón’. 3) Los PDF permiten buscar rápidamente una palabra dentro del libro. enumerando automáticamente las imágenes.com. es imprescindible verificar que l a imagen salga con buen contraste entre las letras y el fondo.optándose por este proceso: 1) Escanear el libro completamente. 2) No existe ningún tipo de error.salvando las diferencias entre uno y otro) * Procesador de textos Word 2000 1. accede a las Opciones del programa. Para corregirlos en caso que sea necesario. digitalizando varias imágenes consecutivas (Ctrol+Shift+K). OCR TEXTO PASO A PASO . de modo que sea fácil de reconocer para el OCR. pasar de página y volve r a introducirlo entre escaneo y escaneo. y con la menor cant idad de imperfecciones posible. Si el tamaño del libro lo permite. Los 300 dpi son para obten er un tamaño de letra considerable. sería conveniente verifi car algunas opciones del programa. Para lograr esto.

En la ventana de diálogo de búsqueda. Ampliar esta imagen. Marca también la opción de ‘Detectar orientación de imagen’. Ventana de ampliación de imagen. Imagen completa y definición de bloques de texto e imágenes dentro del documento 4. aparecerá lo siguiente: ^$^p Luego de eso. En “Especial”. conviene ampliar la ventana de la imagen amp liada y el texto reconocido y trabajar con ellas.^p . con el fin de que FR ordene la numerac ión de las imágenes adecuadamente. ^$ cualquier letra. (explicación: ^p indica el salto de párrafo. Presiona Ctrol+B para abrir el cuadro de Búsqueda. ingresando: . Texto reconocido Para realizar la tarea de corrección. el texto reconocido y cargado en Word se presentará con párrafos interrumpidos. habilita las opciones avanzadas y pulsando “Especial” seleccionas el item de [cualquier letra] y luego el de [marca de párrafo]. Para detectarlos rápidamente puedes realizar un a búsqueda avanzada. Guardando el texto reconocido FR tiene varias opciones para guardar el texto. encontrarás una serie de opciones que usarás para corregir algunos errores comunes de reconocimiento de texto. 2. punto y coma. 2. con el fin de detectarlos automáticamente. Para la corrección de ciertos errores puedes utilizar la herramienta de búsqueda de Word (Menú Editar > Buscar). 5.en la solapa “Digitalizar imagen” marca la casilla de ‘Separar páginas dobles’. Una vez ubicado el caso a corregir hay que detenerse y corregirlo manualmente. 6. 3. Ventana de miniaturas (thumbnails).Reducir esta imagen Clic aquí para ver su tamaño original Vista general del Fine Reader: 1.) También deben buscarse las líneas truncas luego de una coma. podrás introducir entidades especiales para su búsqueda. En la línea del buscador.Reducir esta imagen Clic aquí para ver su tamaño original Diálogo de Búsqueda avanzada en Word: 1. Afinando el texto en Word Ampliar esta imagen. Pulsando el botón ‘Especial’. Botón para acceder a las opciones avanzadas de búsqueda. Lo más conveniente es guardarlo en . Párrafos interrumpidos Debido a que el libro tiene dimensiones diferentes a la de un documento en panta lla y usa diferentes tipografías y tamaños. inicias la búsqueda. y dos puntos.^p :^p . haz click derecho sobre esta ventana y luego seteas la escala. asegúrate de que se muestren las opciones avanzadas pulsando el botón “Más”. o documento de word. asegurándote de poner la página de numeración inferior en el ángulo de inicio de escaneo (generalmente es la esquina superior izquierda de la cama del escáner). Para modificar el factor de ampliación .rtf.

a pesar de que ello implique tiempo y dedicación extra. sencillamente la interpretará como correcta. También asegúrate. La ventaja de este tipo de archivos es que conservan el formato del documento original. guardalo preferentemente en formato . En este sentido es importante hacer una corrección a conciencia. los programas no tienen la ‘inteligencia’ suficiente como para ‘comprender’ un texto. Conviene hacer esta comprobación porque sucede a menudo que el texto original tien e defectos que hacen que el OCR confunda por ejemplo ‘ él ‘ con ‘61′ o la letra ‘ l ‘ con ‘ 1 ‘.rtf. indicale la opción de ‘Omitir todos’ de manera que no vuelva a preguntar por l o mismo. Estos son: * Confusión del nexo coordinante ‘ y ‘ por ‘ v ‘: la solución es Buscar y reemplazar todos los (espacio)v(espacio) por (espacio)y(espacio). por lo que tranquilamente se podrá saltear este paso. y en la solapa de ‘Ortografía y gramática’. de definir el idiom a a español desde el menú Herramientas > Idioma. ya q ue por lo general no se encuentran en su diccionario. al llegar a un nombre propio. Luego inicia la corrección interactiva en Word de todo el documento pulsando ‘F7′. Uso del corrector ortográfico en Word Dirígete al menú Herramientas > Opciones. párrafos cortados y hasta incluso omisión de páginas). Aplícalo también con palabras raras o propias del texto. También puedes convertirlo . Puede que exista u n error pero al detectar que una determinada combinación de letras corresponde a una palabra que figura en su diccionario. pudiéndose abrir en prácticamente cualquier procesador de textos. simplemente se rigen por sus diccionarios. independientemente de su versión e incluso en múltiples plataformas (PC/Mac). Para evitar esto. 8. definiendo un estilo dife rente (por tipografía y tamaño) al del texto general y al de cualquier otro estilo usado.respectivamente. Diferenciar y jerarquizar los títulos y subtítulos para diferenciarlos del resto del texto La única manera de chequear esto es recorrer el texto entero. ya que en la sintaxis cas tellana. Saltos de página con corte de palabra. * Reemplazo de letras por dígitos. Notas finales Una vez que tienes listo el texto. Un problema frecuente es que Word muestre los nombres propios como errores. Lo más conveniente es asignarle un estilo a los títulos y otro a los subtítulos. habiendo previamente seleccionado todo el texto (Ctrol + E). etc. la v corta no va suelta en ningún caso. Corrección por lectura Aún en la actualidad. Si el error está en el original impreso en papel (porque sucede que aún en estos cas os haya errores de tipeado. y comprobación de dígitos en el documento: la solución es realizar una búsqueda avanzada seleccionando [cualquier número]. Esto suprimirá todos los guiones y los salto de párrafo dejando las palabras nuevamente unidas. 7. entonc es la máquina no podrá ayudarnos. Los saltos de página con corte de palabra se pueden corregir automáticamente buscand o la secuencia “guión + marca de salto de párrafo” (-^p) y reemplazándola por nada. Corrección de errores que a veces no son detectados por el corrector automático En el OCR hay errores comunes que suelen aparecer frecuentemente. Por eso es conveniente trabajar con libros ya leídos y que sepamos que no tengan grandes erro res en su impresión. setea la opción de Estilo de escritura a ‘Verificación exhaustiva’.

Un último consejo: lo mejor es organizarse con otras personas que tengan fines comunes y que cada una se ocupe de una tarea específica. Es decir. Ampliar esta imagen. Con eso escaneam os todo el libros salvo las tapas que las escaneamos a color. Si no sabes us . asi el programa dividirá automáticamente las páginas de los libros cuando estos los escanees de a dos páginas a la vez. Ampliar esta imagen. y sólo se cerrará una vez que tú manualmente se lo indiques cuando ya esté todo el libro en formato de imágenes. revisión. Selecciona “Split dual pages”. También selecciona Detect orientation (durant recognition).Reducir esta imagen Clic aquí para ver su tamaño original Guarda las opciones y comienza el scan.Reducir esta imagen Clic aquí para ver su tamaño original Las opciones de scan van a variar de acuerdo a las especificaciones de tu scanne r. para que el FR enderec e aquellas páginas que han quedado en una posición distinta a la del libro al hacer el scan. En este caso. este forma to no admite modificaciones. OCR IMAGEN PASO A PASO Para digitalizar un libro hacen falta el software Abby Fine reader 7 y paciencia . Nosotros establecimos un estandart a 300 dpi en blanco y negro. la mejor opción de trabajo es seleccionar en el ícono que te aparece a rriba “scan multiple images”. después sólo será cosa de que abras este batch con el FR y recomenzar donde quedaste. mientras que al finalizar algun otro puede hacerse car go de la etapa de corrección. otro del trabajo en Word. Lo primero que haremos es crear un nuevo batch (lote en castellano). esto es muy importante para que no vayas a perder ningún archivo en el proceso. si es que tienes las herramientas necesarias y estás seguro de que el texto no contiene errores. Guarda el batch. Ahora viene el momento de comenzar el scan. que alguien se puede ocupar del escaneo y OCR. Lo primero que tienes que hacer es señalarle algunos parámetros a FR para que salga bien tu trabajo y sea más fácil.a formato . para que to do tu trabajo quede en una sola carpeta y no se te vayas a confundir con otras imágenes que puedas tener. Si por alguna razón debes parar tu trabajo y seguir más tarde u otro día. asi el programa comenzará automáticamente a escanear todas las páginas que sea necesario. Aquí nosotros recomendamos usar el controlador propio de cada aparato. etc. ya que una vez publicado.pdf para su publicación. Ojo: si el libro e s muy grande y sólo puedes escanear página a página no es necesario que selecciones esta opción.

Resulta muy importante tener presente el tamaño de la encuadernación del libro a digitalizar. MUY MAL: queda muy abierto y genera una franja negra que puede superponer texto entre las dos páginas. La mayoría de los escanners tienen una superficie de escaneo equivalente al tamaño d e hoja A4. El scan debe realizarse: en blanco y negro. 2) Que libro elegir para escanear primero ? Digitalizar un libro como todas las cosas implica un proceso de apredizaje. y practicar constantemente la forma de encuad rar perfectamente el libro dentro de la superficie de escanner en el breve lapso de segundos . Eso significa que presentando una hoja A4 sobre la superficie del libro abierto y vemos que superficie cubre el A4 sobre las dos hojas de libro. cuidando de que las imágenes no salgan ni muy claras (porque se pueden perder contenidos) ni muy oscur o (porque pueden aparecer muchas manchas) VEAMOS COMO TRABAJAR CON EL LIBRO SOBRE EL SCANNER Primero ver si el libro se puede escanear a página doble sin que sobresalgan márgene s. Lo ideal resultaría que el libro abierto a doble página encaje perfectamente dentro del campo del scanner y de la hoja A4. s i las dimensiones son mayores el libro debe escanearse página a página. antes de iniciar el trabajo de digitalización se debe presentar el li bro sobre el scanner para calcular si el mismo resulta apto para una rápida digitalización. pero en muchos c asos no resulta posible ya que el tamaño de las hojas del libro no lo permite.arlo recurre a los manuales que deben haber venido con tu scanner. Lo ideal siempre resulta que se puedan escanear a pagina doble. CONSIDERACIONES PREVIAS A DIGITALIZAR 1) El tamaño del libro. El standart para escanear libros a página doble es sobre un libro de 23 x 16 cm. Esto tiene su razón para familiarizarse con el escaner que utiliza y el tiemp o que este demora entre pasada y pasada. lo q ue nos lleva a sugerir que sus primeros libros digitales deben ser de pocas páginas. resolución de 300 dpi.Reducir esta imagen Clic aquí para ver su tamaño original PERFECTO: No se deja espacio abierto y la digitalización es perfecta. sin que sobresalgan márgenes laterales. inferio res o superiores. entr e 100 y 300. Ampliar esta imagen. El libro debe encuadrarse prefectamente dentro del campo del scanner: Veamos ahora como se debe trabajar con el lomo del libro. y el esc aneo debe realizarse página a página.

en cambio los libros ya usados y abiertos son muy fáciles de exponer sobre el escanner. navegar por internet o ver un DVD. se acepta.que le toma al escanner hacer otra pasada para escanear. solamente el tie mpo que desee invertir en ello. 3) Que es mejor un libro nuevo o uno viejo ? Lo mejor siempre es bibliografía actualizada. Hay textos clásicos indispensables y libros nuevos que casualmente no dicen nada nuevo. Existe una gra diferencia de velocidad entre los escanners que se conectan en pu erto paralelo y los USB. y de consulta constante. y visualmen te resulta molesto para leer. la clave está en la práctica. Pero para hacer un cálculo promedio un escanner demora entre cada pasada entre 12 y 20 segundos. Si la obra vale la pena se debe recurrir a la goma de borrar y borrar los subrayados. Su esca nner puede ser muy rápido para sus manos y solo con la práctica se adquiere la velocidad para pasar las hojas y acomodar el l ibro sobre el escanner en forma correcta. 4) Porqué se deben evitar los libros subrayados ? Los libros con texto subrayado dificulta el reconocimiento de texto. 5) Cuanto tiempo toma escanear un libro ? Eso depende exclusivamente de la velocidad de su escaner y de la práctica. demora el mismo tiempo ya sea una página simple o doble. pueda escanear un libro y al mismo tiempo le er otro en la pantalla. verá que no hay límites para digitalizar. hojas que no se ven bien por eso hay que practicar y practicar hasta que Ud. Sus primeras digitalizaciones tendran errores. una vez que se familiarice co n los libros y con su escanner. Existen editoriales con determinado tipo de encuadernación que puede facilitar o complicar en más o en menos la digitalización de un libro. sin aperturas. utilizar Windows 98 o un escanner por puerto paralelo ralentiza todo el proceso. la recomendación es que se tenga instalado por sistema operativo Windows XP y un escanner USB con es o la velocidad aumenta considerablemente. y el mismo permite la lectura y las hojas subrayadas no superan el 10% del total de hojas de la misma. hasta que se consiga un obra sin subrayar o en mej or estado. Cada profesional o estudiante conoce los autores de cita y las obras de referencia en su campo. Si el subrayado fué realizado con tinta. ya que la pasada la realiza sobre toda la superfici e expuesta del escanner. Una buena opción es comprar un escanner HP 1410 que es muy rápida y económica . Los libros nuevos suelen implicar un trabajo extra ya que para abrirlos bien a d oble página sobre la superficie del escanner se debe aplicar un esfuerzo superior ya qu e su encuadernación se encuentra virgen.

que de otra manera perderían su valor.alrededor de los $ 200. y consultar tantos libros digitales al mismo tiempo como se necesite en la misma pantalla.050 pasada ( 1 x 20) = 0020 segundos pasadas ( 5 x 20) = 0100 segundos pasadas (25 x 20) = 0500 segundos pasadas (50 x 20) = 1000 segundos En una hora se digitalizan (3600/20) x 2 = 360 páginas Esta tabla muestra claramente el tiempo que toma la digitalización de páginas y asimismo sirve de guía para calcular el tiempo "optimo" que puede tomar digitaliza r un libro conforme la cantidad de páginas que tenga. Los libros se escanean desde su tapa a color hasta la última página.005 pasadas ( 5 x 12) = 0060 Segundos 050 páginas . Que en el peor de los casos se ca lcula que en una hora se pueden digitalizar 360 páginas.005 páginas .050 pasadas (50 x 12) = 0600 segundos En una hora se digitalizan (3600/12) x 2 = 600 páginas POR 16 SEGUNDOS: 002 páginas . indicando en número de página. y 360 por hora. no son alergicos al agua. AHORRO DE ESPACIO: Los libros digitales no ocupan espacio ni en el escritorio ni en la biblioteca. salvo de tiempo no de dinero. no importa que tenga páginas en blanco al principio o al final. POR 12 SEGUNDOS: 002 páginas . Los libros digitales no .005 pasadas ( 5 x 16) = 0080 segundos 050 páginas . 9) Se debe escanear todo el libro ?. COSTO CERO: La digitalización no implica un costo. 60 páginas cada 10 minutos.001 pasada ( 1 x 12) = 0012 segundos 010 páginas .025 páginas .025 pasadas (25 x 16) = 0400 segundos 100 páginas .001 páginas . PRESERVACIÓN: Los libros digitales no se deterioran por el paso del tiempo. eso hace 6 páginas por minuto. 14) Cuales son las ventajas de la digitalización ? VELOCIDAD DE ACCESO Y CONSULTA: Acceso inmediato a la obra o articulo necesario.025 pasadas (25 x 12) = 0300 segundos 100 páginas . la digitalización implica copias di gitalies exactas del libro. no se ponen amarillos con los años.001 pasada ( 1 x 16) = 0016 segundos 010 páginas . No sirve como impresora pues consume mucha tinta (que encima es costosa) pero el escanner no necesita de tinta Tenemos entonces para empezar digamos en el peor de los casos 20 segundos por ca da 2 páginas. Si.050 pasadas (50 x 16) = 0800 segundos En una hora se digitalizan (3600/16) x 2 = 450 páginas POR 002 010 050 100 20 SEGUNDOS: páginas . o la humedad y son inmunes a las ratas. Las copias deben ser exactas por el hecho que los libros son utilizados para realizar citas textuales. una multifunción que como impresora es un excelente escann er.

necesitan mantenimiento ni reencuadernación. Capri se ha tomado la molestia de ampliarnos el tutorial con algunos trucos muy út iles y que nos va a ahorrar un montón de horas en la corrección. Ignoro quien lo mandó. se habla de w98 y ABby FR v7. Editado: Ampliación del Manual por Capri. 16/05/2010. extrayendo las partes que a nosotros nos interesan. Al remitente.Reducir esta imagen Clic aquí para ver su tamaño original Fotos 02 y 03: La tablilla de plástico nos ayuda a apretar el lomo contra el escáner en las primeras páginas de un libro de tapa blanda. . Ampliar esta imagen. Al remitente. También se puede utilizar en libros gruesos de tapa dura introduciendo el palo en el hueco que hay entre el lomo y las páginas cosidas (en lo que se llama la boca). (Abby ya anda por la v10. MUCHAS GRAC IAS.Reducir esta imagen Clic aquí para ver su tamaño original Ampliar esta imagen. EL Papel sufre un proceso natural de oxidación por su exposición al aire. Que está esperando para digitalizar su primer libro ? Pues ya tenemos nuevo manual. lo que lo deteriora notablemente con el paso del tiempo.Reducir esta imagen Clic aquí para ver su tamaño original Ampliar esta imagen. Es preferible utilizar la varilla como en las fotos 06 y 07.) Pero para orientarnos y entender los principios del proceso. Edito para aclarar que fue Capri la autora del envío. Lo enviaron al filebox en un PDF. Pues MUCHAS GRACIAS A TI Capri. De todas formas aquí podeís descarga el PDF COMPLETO donde se explican algunas cosas más y sobre todo el OCR imagen. Como el manual tiene algunos años.Reducir esta imagen Clic aquí para ver su tamaño original Ampliar esta imagen.Reducir esta imagen Clic aquí para ver su tamaño original Fotos 04 y 05: El palo de plástico nos ayuda a apretar el lomo de un libro de tapa blanda contra el escáner cuando ya tenemos una parte del libro escaneado. Lo enviaron al filebox en un PDF. MUCHAS GRACIAS. es más que suficiente . Me he permitido adaptarlo para al html. si bien este procedimiento deforma bastante el libro. (Algo me lo decía pero no esta ba seguro. los cuales ya están en desuso. Ampliar esta imagen. Ignoro quien lo mandó.

se introduce en el hueco entre el lomo y el lomo de los pliegos cosidos para poder presionar las páginas contra el cristal del escáner. Realmente vale la pena seguir estos consejos ya que un scaneo defectuoso. Muchas Gracias Capri por el trabajo que te has tomado y por compartirlo aquí con t odos. editado 6 veces .Reducir esta imagen Clic aquí para ver su tamaño original Ampliar esta imagen. en este caso de acero inoxidable. Que os sean de utilidad!!! Última edición por Maese el Lun Mayo 17. convie rte la corrección en una pesadilla. 2010 1:00 pm.Ampliar esta imagen.Reducir esta imagen Clic aquí para ver su tamaño original Fotos 06 y 07: La varilla rígida.

Sign up to vote on this title
UsefulNot useful