Este tutorial fué realizado para a BJA Biblioteca Jurídica Argentina, grupo dedicado a la digitalización de bibliografía Jurídica y de Ciencias

Sociales. http://bibliojuridica.my-webs.org El futuro del libro es electrónico. Y ya llegó. La masiva digitalización, almacenamien to y distribución de libros en la red de redes es un hecho. Existen muchos sitios de libros electrónicos entre los que recomiendo: http://hansi.libroz.com.ar (Español) Estos sitios son una referencia, existen miles de sitios, y todos los días aparece n nuevos. El punto es ... como aparecen los libros digitalizados ?. La respuesta es muy si mple, la mayoría son las ediciones digitales de los libros de papel distribuidas por las mi smas editoras en formato electrónico, y por otra parte se encuentran los libros que son digitalizados "manualmente" por entusiastas de la digitalización. La digitalización manual si bien no es compleja, tiene sus trucos. Existen 2 tipos de digitalización manual, el OCR TEXTO y el OCR IMAGEN. OCR TEXTO Este es un método prehistórico, que se implementó cuando se comenzaron a aparecer los scanners de puerto paralelo y bajo Win98, cuando el ancho de banda también era una gran limitación. El método implica los siguientes pasos: 1) Escanear el libro completamente. 2) Realizar el OCR. 3) Corregir a mano el resultado del OCR. 4) Convertir el resultado en archivo DOC, RTF, TXT, LIT o PDF. A FAVOR 1) Los libros ocupan pocos Kbs. EN CONTRA 1) El OCR no es 100% confiable, como el resultado de la edición manual. 2) Demora muchísimo tiempo la corrección manual que implicar leer todo el libro para corregir errores. 3) No coincide la numeración de páginas entre el libro original y el libro digital. Este método es el utilizado por casi todos los grupos de digitalización, del IRC o YAHOO. OCR IMAGEN Esta forma de digitalización, surge de un grupo dedicado a la digitalización de libr os de derecho llamado Neopanopticum que luego se llamó El_panoptico y que hoy se llama BJA - Biblioteca Jurídica Argentina. El problema para el grupo era que la corrección manual del OCR implicaba que se demoraba hasta 3 meses para tener listo un libro. Principalmente porque las nota s al pié de página debían ser casi en todos los casos escritas desde cero. Esto es una norma para casi todos los libros científicos en los que las citas al pié son varias y extensas. Ademas los profesionales debemos citar las fuentes, lo que obliga a indicar además de la obra la página donde se encuentra el texto o referencia. La digitalización de OCR TEXTO no mantiene excatamente la correlación de las páginas con las del libro original. En razon de este problema se cambió completamente el sistema de digitalización,

3) Los PDF permiten buscar rápidamente una palabra dentro del libro. de modo que sea fácil de reconocer para el OCR.haciendo el proceso mucho más rápido que escaneando las páginas una por una manualmente.salvando las diferencias entre uno y otro) * Procesador de textos Word 2000 1. sería conveniente verifi car algunas opciones del programa. Para corregirlos en caso que sea necesario. 4) Convertir el resultado en PDF. de manera de tener el tiempo suficiente como para sacar el libro del escaner. escanea de dos páginas a la vez en sentido horizo ntal a la cama del escáner. Haz las pruebas que creas convenientes hasta obtener un buen resultado de imagen y mantener el ritmo adecuado de escaneo. es imprescindible verificar que l a imagen salga con buen contraste entre las letras y el fondo. OCR TEXTO PASO A PASO . “RGB color”.optándose por este proceso: 1) Escanear el libro completamente.Fuente: http://www. A medida que se escanean las diferentes páginas. 2) Recortar las imágenes de cada página eliminando margenes inútiles. 3) Realizar el OCR. accede a las Opciones del programa pulsando ‘Ctrol+Shift+O’ y en la solapa de ‘Digitalizar imagen’ marca la opción ‘Usar Interfaz de FR’. digitalizando varias imágenes consecutivas (Ctrol+Shift+K). enumerando automáticamente las imágenes. Si el tamaño del libro lo permite. EN CONTRA No tiene ninguna contra. Para ello. FR comenzará a escanear una imagen detrás de otra -sin preview. Para lograr esto. Pero antes de realizar ese paso. y cualquier filtro de destramado) con un rango tonal tirando a claro para evitar sombras e imperfecciones. puedes dejar marcada la opción de ‘Pausa entre páginas’ y especificarle el tiempo que creas adecuado. aunque puedes utilizar cualquier otro -incluso el que ha venido seguramente con tu escáner. pero eso hoy no es un inconveniente con el ancho de banda disponible. En la solapa de ‘Digitalizar…’ también asegúrate de marcar las casillas de ‘Convertir imágenes en color o escala de grises a blanco y negro’ y ‘Limpiar imagen’. accede a las Opciones del programa. y luego pulsa el botón de ‘Configuración del escáner’ para hacer los ajustes necesarios. Si tu escaner es muy rápido. te puedes va ler de la interfaz de escaneo que trae incorporada el FR en lugar de la de tu escáner. pasar de página y volve r a introducirlo entre escaneo y escaneo. Escaneando El primer paso es acceder a la interfase del scanner desde dentro del FR para lu ego comenzar a escanear las páginas a 300 dpi en modo “solo texto” (evitando los modos de “escala de grises”. pero podría decirse que los libros en OCR IMAGEN ocupan un poco más que los de OCR TEXTO. sobre todo el de ‘Brillo’ (nivel de umbral).katarsis-net.ar Herramientas necesarias: * Scanner * Software OCR para reconocimiento de textos (esta guía está basada específicamente en el programa “Abbyy Fine Reader versión 7 multilenguaje” (en adelante ‘FR’) por su versatilidad para procesar y reconocer textos escaneados. y . 2) No existe ningún tipo de error. A FAVOR 1) Los libros son una copia exacta del original. y con la menor cant idad de imperfecciones posible. FR tiene la opción de escanear múltiples páginas. Los 300 dpi son para obten er un tamaño de letra considerable. Lo más recomendable es escanear todo el libro ‘de un tirón’.com.

Guardando el texto reconocido FR tiene varias opciones para guardar el texto. 2. Una vez ubicado el caso a corregir hay que detenerse y corregirlo manualmente. Pulsando el botón ‘Especial’. Ampliar esta imagen. Ventana de miniaturas (thumbnails).^p :^p . (explicación: ^p indica el salto de párrafo. con el fin de que FR ordene la numerac ión de las imágenes adecuadamente. asegurándote de poner la página de numeración inferior en el ángulo de inicio de escaneo (generalmente es la esquina superior izquierda de la cama del escáner). el texto reconocido y cargado en Word se presentará con párrafos interrumpidos. aparecerá lo siguiente: ^$^p Luego de eso. Para modificar el factor de ampliación . En la ventana de diálogo de búsqueda. ^$ cualquier letra. Afinando el texto en Word Ampliar esta imagen.) También deben buscarse las líneas truncas luego de una coma. 3.Reducir esta imagen Clic aquí para ver su tamaño original Vista general del Fine Reader: 1. 6. Para detectarlos rápidamente puedes realizar un a búsqueda avanzada. y dos puntos. habilita las opciones avanzadas y pulsando “Especial” seleccionas el item de [cualquier letra] y luego el de [marca de párrafo]. con el fin de detectarlos automáticamente. Párrafos interrumpidos Debido a que el libro tiene dimensiones diferentes a la de un documento en panta lla y usa diferentes tipografías y tamaños.en la solapa “Digitalizar imagen” marca la casilla de ‘Separar páginas dobles’. o documento de word.Reducir esta imagen Clic aquí para ver su tamaño original Diálogo de Búsqueda avanzada en Word: 1. En “Especial”. Texto reconocido Para realizar la tarea de corrección. 2.rtf. Botón para acceder a las opciones avanzadas de búsqueda. Ventana de ampliación de imagen. podrás introducir entidades especiales para su búsqueda. haz click derecho sobre esta ventana y luego seteas la escala. 5. asegúrate de que se muestren las opciones avanzadas pulsando el botón “Más”. En la línea del buscador. Marca también la opción de ‘Detectar orientación de imagen’. ingresando: . Imagen completa y definición de bloques de texto e imágenes dentro del documento 4. conviene ampliar la ventana de la imagen amp liada y el texto reconocido y trabajar con ellas.^p . punto y coma. Presiona Ctrol+B para abrir el cuadro de Búsqueda. inicias la búsqueda. Para la corrección de ciertos errores puedes utilizar la herramienta de búsqueda de Word (Menú Editar > Buscar). encontrarás una serie de opciones que usarás para corregir algunos errores comunes de reconocimiento de texto. Lo más conveniente es guardarlo en .

Si el error está en el original impreso en papel (porque sucede que aún en estos cas os haya errores de tipeado. También asegúrate. Puede que exista u n error pero al detectar que una determinada combinación de letras corresponde a una palabra que figura en su diccionario. habiendo previamente seleccionado todo el texto (Ctrol + E). párrafos cortados y hasta incluso omisión de páginas). Aplícalo también con palabras raras o propias del texto. Un problema frecuente es que Word muestre los nombres propios como errores. Diferenciar y jerarquizar los títulos y subtítulos para diferenciarlos del resto del texto La única manera de chequear esto es recorrer el texto entero. Corrección por lectura Aún en la actualidad. Luego inicia la corrección interactiva en Word de todo el documento pulsando ‘F7′. definiendo un estilo dife rente (por tipografía y tamaño) al del texto general y al de cualquier otro estilo usado. entonc es la máquina no podrá ayudarnos. 8. independientemente de su versión e incluso en múltiples plataformas (PC/Mac). pudiéndose abrir en prácticamente cualquier procesador de textos. setea la opción de Estilo de escritura a ‘Verificación exhaustiva’. Conviene hacer esta comprobación porque sucede a menudo que el texto original tien e defectos que hacen que el OCR confunda por ejemplo ‘ él ‘ con ‘61′ o la letra ‘ l ‘ con ‘ 1 ‘. En este sentido es importante hacer una corrección a conciencia. simplemente se rigen por sus diccionarios. Los saltos de página con corte de palabra se pueden corregir automáticamente buscand o la secuencia “guión + marca de salto de párrafo” (-^p) y reemplazándola por nada. indicale la opción de ‘Omitir todos’ de manera que no vuelva a preguntar por l o mismo. ya q ue por lo general no se encuentran en su diccionario. sencillamente la interpretará como correcta. etc. La ventaja de este tipo de archivos es que conservan el formato del documento original.rtf. Esto suprimirá todos los guiones y los salto de párrafo dejando las palabras nuevamente unidas. Para evitar esto. los programas no tienen la ‘inteligencia’ suficiente como para ‘comprender’ un texto. y en la solapa de ‘Ortografía y gramática’. * Reemplazo de letras por dígitos. Estos son: * Confusión del nexo coordinante ‘ y ‘ por ‘ v ‘: la solución es Buscar y reemplazar todos los (espacio)v(espacio) por (espacio)y(espacio). 7. y comprobación de dígitos en el documento: la solución es realizar una búsqueda avanzada seleccionando [cualquier número]. También puedes convertirlo . Uso del corrector ortográfico en Word Dirígete al menú Herramientas > Opciones. la v corta no va suelta en ningún caso. Corrección de errores que a veces no son detectados por el corrector automático En el OCR hay errores comunes que suelen aparecer frecuentemente. por lo que tranquilamente se podrá saltear este paso. ya que en la sintaxis cas tellana.respectivamente. de definir el idiom a a español desde el menú Herramientas > Idioma. guardalo preferentemente en formato . Por eso es conveniente trabajar con libros ya leídos y que sepamos que no tengan grandes erro res en su impresión. a pesar de que ello implique tiempo y dedicación extra. Notas finales Una vez que tienes listo el texto. al llegar a un nombre propio. Lo más conveniente es asignarle un estilo a los títulos y otro a los subtítulos. Saltos de página con corte de palabra.

Nosotros establecimos un estandart a 300 dpi en blanco y negro.a formato . etc. Ojo: si el libro e s muy grande y sólo puedes escanear página a página no es necesario que selecciones esta opción. y sólo se cerrará una vez que tú manualmente se lo indiques cuando ya esté todo el libro en formato de imágenes. ya que una vez publicado. después sólo será cosa de que abras este batch con el FR y recomenzar donde quedaste. para que el FR enderec e aquellas páginas que han quedado en una posición distinta a la del libro al hacer el scan. Con eso escaneam os todo el libros salvo las tapas que las escaneamos a color. Un último consejo: lo mejor es organizarse con otras personas que tengan fines comunes y que cada una se ocupe de una tarea específica. esto es muy importante para que no vayas a perder ningún archivo en el proceso.Reducir esta imagen Clic aquí para ver su tamaño original Las opciones de scan van a variar de acuerdo a las especificaciones de tu scanne r. Guarda el batch. Si no sabes us . la mejor opción de trabajo es seleccionar en el ícono que te aparece a rriba “scan multiple images”. para que to do tu trabajo quede en una sola carpeta y no se te vayas a confundir con otras imágenes que puedas tener. si es que tienes las herramientas necesarias y estás seguro de que el texto no contiene errores. Es decir. Selecciona “Split dual pages”. Ahora viene el momento de comenzar el scan. que alguien se puede ocupar del escaneo y OCR. mientras que al finalizar algun otro puede hacerse car go de la etapa de corrección. En este caso. otro del trabajo en Word. asi el programa comenzará automáticamente a escanear todas las páginas que sea necesario. Lo primero que haremos es crear un nuevo batch (lote en castellano). Lo primero que tienes que hacer es señalarle algunos parámetros a FR para que salga bien tu trabajo y sea más fácil.pdf para su publicación. Ampliar esta imagen. asi el programa dividirá automáticamente las páginas de los libros cuando estos los escanees de a dos páginas a la vez. Aquí nosotros recomendamos usar el controlador propio de cada aparato. Si por alguna razón debes parar tu trabajo y seguir más tarde u otro día. este forma to no admite modificaciones. También selecciona Detect orientation (durant recognition). OCR IMAGEN PASO A PASO Para digitalizar un libro hacen falta el software Abby Fine reader 7 y paciencia . Ampliar esta imagen. revisión.Reducir esta imagen Clic aquí para ver su tamaño original Guarda las opciones y comienza el scan.

El libro debe encuadrarse prefectamente dentro del campo del scanner: Veamos ahora como se debe trabajar con el lomo del libro. inferio res o superiores. pero en muchos c asos no resulta posible ya que el tamaño de las hojas del libro no lo permite. cuidando de que las imágenes no salgan ni muy claras (porque se pueden perder contenidos) ni muy oscur o (porque pueden aparecer muchas manchas) VEAMOS COMO TRABAJAR CON EL LIBRO SOBRE EL SCANNER Primero ver si el libro se puede escanear a página doble sin que sobresalgan márgene s. entr e 100 y 300. lo q ue nos lleva a sugerir que sus primeros libros digitales deben ser de pocas páginas. 2) Que libro elegir para escanear primero ? Digitalizar un libro como todas las cosas implica un proceso de apredizaje. La mayoría de los escanners tienen una superficie de escaneo equivalente al tamaño d e hoja A4. CONSIDERACIONES PREVIAS A DIGITALIZAR 1) El tamaño del libro. sin que sobresalgan márgenes laterales. resolución de 300 dpi. y practicar constantemente la forma de encuad rar perfectamente el libro dentro de la superficie de escanner en el breve lapso de segundos . El scan debe realizarse: en blanco y negro.arlo recurre a los manuales que deben haber venido con tu scanner. s i las dimensiones son mayores el libro debe escanearse página a página. y el esc aneo debe realizarse página a página. MUY MAL: queda muy abierto y genera una franja negra que puede superponer texto entre las dos páginas. Eso significa que presentando una hoja A4 sobre la superficie del libro abierto y vemos que superficie cubre el A4 sobre las dos hojas de libro. Esto tiene su razón para familiarizarse con el escaner que utiliza y el tiemp o que este demora entre pasada y pasada.Reducir esta imagen Clic aquí para ver su tamaño original PERFECTO: No se deja espacio abierto y la digitalización es perfecta. Lo ideal siempre resulta que se puedan escanear a pagina doble. El standart para escanear libros a página doble es sobre un libro de 23 x 16 cm. Ampliar esta imagen. antes de iniciar el trabajo de digitalización se debe presentar el li bro sobre el scanner para calcular si el mismo resulta apto para una rápida digitalización. Lo ideal resultaría que el libro abierto a doble página encaje perfectamente dentro del campo del scanner y de la hoja A4. Resulta muy importante tener presente el tamaño de la encuadernación del libro a digitalizar.

ya que la pasada la realiza sobre toda la superfici e expuesta del escanner. Pero para hacer un cálculo promedio un escanner demora entre cada pasada entre 12 y 20 segundos. pueda escanear un libro y al mismo tiempo le er otro en la pantalla. una vez que se familiarice co n los libros y con su escanner. y el mismo permite la lectura y las hojas subrayadas no superan el 10% del total de hojas de la misma. 5) Cuanto tiempo toma escanear un libro ? Eso depende exclusivamente de la velocidad de su escaner y de la práctica. solamente el tie mpo que desee invertir en ello. Si la obra vale la pena se debe recurrir a la goma de borrar y borrar los subrayados. Sus primeras digitalizaciones tendran errores. demora el mismo tiempo ya sea una página simple o doble. y visualmen te resulta molesto para leer. Una buena opción es comprar un escanner HP 1410 que es muy rápida y económica . verá que no hay límites para digitalizar. utilizar Windows 98 o un escanner por puerto paralelo ralentiza todo el proceso. sin aperturas. Su esca nner puede ser muy rápido para sus manos y solo con la práctica se adquiere la velocidad para pasar las hojas y acomodar el l ibro sobre el escanner en forma correcta. en cambio los libros ya usados y abiertos son muy fáciles de exponer sobre el escanner. hasta que se consiga un obra sin subrayar o en mej or estado. Existen editoriales con determinado tipo de encuadernación que puede facilitar o complicar en más o en menos la digitalización de un libro.que le toma al escanner hacer otra pasada para escanear. 3) Que es mejor un libro nuevo o uno viejo ? Lo mejor siempre es bibliografía actualizada. Cada profesional o estudiante conoce los autores de cita y las obras de referencia en su campo. la clave está en la práctica. Existe una gra diferencia de velocidad entre los escanners que se conectan en pu erto paralelo y los USB. y de consulta constante. Si el subrayado fué realizado con tinta. la recomendación es que se tenga instalado por sistema operativo Windows XP y un escanner USB con es o la velocidad aumenta considerablemente. 4) Porqué se deben evitar los libros subrayados ? Los libros con texto subrayado dificulta el reconocimiento de texto. navegar por internet o ver un DVD. Hay textos clásicos indispensables y libros nuevos que casualmente no dicen nada nuevo. hojas que no se ven bien por eso hay que practicar y practicar hasta que Ud. Los libros nuevos suelen implicar un trabajo extra ya que para abrirlos bien a d oble página sobre la superficie del escanner se debe aplicar un esfuerzo superior ya qu e su encuadernación se encuentra virgen. se acepta.

Que en el peor de los casos se ca lcula que en una hora se pueden digitalizar 360 páginas.alrededor de los $ 200. la digitalización implica copias di gitalies exactas del libro. salvo de tiempo no de dinero.025 pasadas (25 x 12) = 0300 segundos 100 páginas . PRESERVACIÓN: Los libros digitales no se deterioran por el paso del tiempo.050 pasadas (50 x 12) = 0600 segundos En una hora se digitalizan (3600/12) x 2 = 600 páginas POR 16 SEGUNDOS: 002 páginas . eso hace 6 páginas por minuto. Los libros digitales no . AHORRO DE ESPACIO: Los libros digitales no ocupan espacio ni en el escritorio ni en la biblioteca. y consultar tantos libros digitales al mismo tiempo como se necesite en la misma pantalla. Los libros se escanean desde su tapa a color hasta la última página. una multifunción que como impresora es un excelente escann er.001 pasada ( 1 x 12) = 0012 segundos 010 páginas .025 páginas .050 pasada ( 1 x 20) = 0020 segundos pasadas ( 5 x 20) = 0100 segundos pasadas (25 x 20) = 0500 segundos pasadas (50 x 20) = 1000 segundos En una hora se digitalizan (3600/20) x 2 = 360 páginas Esta tabla muestra claramente el tiempo que toma la digitalización de páginas y asimismo sirve de guía para calcular el tiempo "optimo" que puede tomar digitaliza r un libro conforme la cantidad de páginas que tenga. Si. que de otra manera perderían su valor. Las copias deben ser exactas por el hecho que los libros son utilizados para realizar citas textuales. o la humedad y son inmunes a las ratas.005 pasadas ( 5 x 16) = 0080 segundos 050 páginas .001 pasada ( 1 x 16) = 0016 segundos 010 páginas . POR 12 SEGUNDOS: 002 páginas .001 páginas .025 pasadas (25 x 16) = 0400 segundos 100 páginas . 60 páginas cada 10 minutos. no se ponen amarillos con los años. 9) Se debe escanear todo el libro ?.005 páginas . no importa que tenga páginas en blanco al principio o al final. 14) Cuales son las ventajas de la digitalización ? VELOCIDAD DE ACCESO Y CONSULTA: Acceso inmediato a la obra o articulo necesario. indicando en número de página. y 360 por hora. no son alergicos al agua. COSTO CERO: La digitalización no implica un costo.050 pasadas (50 x 16) = 0800 segundos En una hora se digitalizan (3600/16) x 2 = 450 páginas POR 002 010 050 100 20 SEGUNDOS: páginas .005 pasadas ( 5 x 12) = 0060 Segundos 050 páginas . No sirve como impresora pues consume mucha tinta (que encima es costosa) pero el escanner no necesita de tinta Tenemos entonces para empezar digamos en el peor de los casos 20 segundos por ca da 2 páginas.

los cuales ya están en desuso. Que está esperando para digitalizar su primer libro ? Pues ya tenemos nuevo manual. 16/05/2010. .) Pero para orientarnos y entender los principios del proceso. (Algo me lo decía pero no esta ba seguro.Reducir esta imagen Clic aquí para ver su tamaño original Fotos 04 y 05: El palo de plástico nos ayuda a apretar el lomo de un libro de tapa blanda contra el escáner cuando ya tenemos una parte del libro escaneado.Reducir esta imagen Clic aquí para ver su tamaño original Ampliar esta imagen. Capri se ha tomado la molestia de ampliarnos el tutorial con algunos trucos muy út iles y que nos va a ahorrar un montón de horas en la corrección. lo que lo deteriora notablemente con el paso del tiempo. Como el manual tiene algunos años. Ignoro quien lo mandó. (Abby ya anda por la v10. Edito para aclarar que fue Capri la autora del envío. extrayendo las partes que a nosotros nos interesan. Me he permitido adaptarlo para al html. Ignoro quien lo mandó.Reducir esta imagen Clic aquí para ver su tamaño original Ampliar esta imagen. se habla de w98 y ABby FR v7. EL Papel sufre un proceso natural de oxidación por su exposición al aire. Al remitente. De todas formas aquí podeís descarga el PDF COMPLETO donde se explican algunas cosas más y sobre todo el OCR imagen.necesitan mantenimiento ni reencuadernación. MUCHAS GRAC IAS. También se puede utilizar en libros gruesos de tapa dura introduciendo el palo en el hueco que hay entre el lomo y las páginas cosidas (en lo que se llama la boca). MUCHAS GRACIAS. Ampliar esta imagen. si bien este procedimiento deforma bastante el libro. Al remitente. es más que suficiente . Lo enviaron al filebox en un PDF. Ampliar esta imagen. Pues MUCHAS GRACIAS A TI Capri.Reducir esta imagen Clic aquí para ver su tamaño original Fotos 02 y 03: La tablilla de plástico nos ayuda a apretar el lomo contra el escáner en las primeras páginas de un libro de tapa blanda. Es preferible utilizar la varilla como en las fotos 06 y 07.Reducir esta imagen Clic aquí para ver su tamaño original Ampliar esta imagen. Lo enviaron al filebox en un PDF. Editado: Ampliación del Manual por Capri.

Reducir esta imagen Clic aquí para ver su tamaño original Fotos 06 y 07: La varilla rígida. se introduce en el hueco entre el lomo y el lomo de los pliegos cosidos para poder presionar las páginas contra el cristal del escáner. Muchas Gracias Capri por el trabajo que te has tomado y por compartirlo aquí con t odos. convie rte la corrección en una pesadilla. Realmente vale la pena seguir estos consejos ya que un scaneo defectuoso. editado 6 veces . 2010 1:00 pm.Reducir esta imagen Clic aquí para ver su tamaño original Ampliar esta imagen.Ampliar esta imagen. en este caso de acero inoxidable. Que os sean de utilidad!!! Última edición por Maese el Lun Mayo 17.

Sign up to vote on this title
UsefulNot useful