Está en la página 1de 5

CONSEJOS Y TRUCOS PARA LA DIGITALIZACIN Y CORRECCIN DE TEXTOS (GUA PASO A PASO CON FINE READER Y WORD) PRESENTACIN: Visto

que continuamente hay gente que se integra en la lista y no est familiarizada con la digitalizacin y correccin de textos, se me ha ocurrido hacer un resumen paso a paso de las tareas que componen este proceso y de la resolucin de los problemas ms comunes que se plantean. Para hacerlo ms ameno y refiero mis experiencias personales. Y agradezco la ayuda que me ha brindado El Trauko con sus oportunos consejos y a Elfowar por ensearme el "split" (separacin) de las pginas en FR y su reacomodamiento. Espero que les sea til. Cx. [EQUIPAMIENTO CON QUE TRABAJO: Scanner: HP 3c (scsi) OCR: Fine Reader versin 6.0 Corporated Edition en ingls (en adelante, FR) Word: Word 2000 en ingls (en adelante, Word)] EL SCAN: Escaneo a 300 dpi en la opcin solo texto (nada de escala de grises ni rgb, ni nada de nitidez especial) con un rango bastante claro para evitar sombras e imperfecciones. Escaneo de a 2 pginas a la vez. Segn como pueda colocar el libro en la "cama" del scanner lo pongo horizontal o vertical (pero prefiero el horizontal). Escaneo todo el libro de un tirn. No empiezo ninguna otra tarea con el mismo libro hasta terminar el scan. Comnmente uso la opcin de escanear mltiples pginas de FR porque ya numera automticamente los tiff. En opciones de escaneo elijo "split dual pages" para separar las dos pginas y, si escaneo en vertical, elijo que detecte automticamente la direccin de la pagina (tengo cuidado de poner la pgina de numeracin inferior en el ngulo de inicio del escaneo de lo contrario FR colocar la Pg. 4 antes que la 5, por ejemplo). A medida que voy escaneando en las ventanas de FR verifico que la imagen venga clara y con la menor cantidad de imperfecciones para ello corrijo los valores de luminosidad del escaneo (nivel del umbral). [A veces FR tiene dificultad para reconocer la orientacin de las pginas o sencillamente la mquina se vuelve muy lenta para esta opcin en esos casos hago lo siguiente: El Batch (lote) en que pongo las imgenes no es el definitivo: cuando termin de escanear y he rotado las imgenes hasta que las tengo todas en horizontal. Entonces creo un nuevo batch o "lote" (el definitivo, con el nombre definitivo). Entre las opciones de FR elijo que haga split de las pginas. FR separa entonces todo en pginas individuales.] CONTROL DE PAGINACIN (C1): A medida que se escanean las pginas FR, en una ventana de la izquierda coloca miniaturas (thumbnails) de la pginas escaneadas, con el nmero de pgina que le ha correspondido, al pie de la misma. Pues bien, al concluir el escaneo HAGO COINCIDIR EL NUMERO DE LA PRIMERA PAGINA CON EL NUMERO DE ESA PAGINA EN EL LIBRO Y HAGO QUE RENUMERE TODAS LAS PGINAS EN CONSECUENCIA. Y de esta forma verifico que a cada pgina se corresponda con el nmero de la miniatura correspondiente. La razn es la siguiente: Hay que hacer control de que no se haya salteado ninguna pgina durante el escaneo (o que alguna la haya escaneado, por distraccin, dos veces). Y se controla que todas ellas estn en el orden correcto. Truco: En realidad no es necesario controlar con este procedimiento todas las pginas. Si uno controla una de cada diez o veinte y siempre halla coincidencia, la posibilidad de error es casi nula. Y adems, controlo siempre

las ltimas 2 pginas. Si uno est muy apurado, controla la primera y la ltima, y luego, algunas de las intermedias (si hay coincidencias probablemente no existan problemas de paginacin) EL LAYOUT (ENCUADRE DEL TEXTO A RECONOCER): Para hacer que el OCR reconozca el texto hay que seala en cada pginas las reas que debe leer. Esa marcacin es el layout y debe hacerse en cada pagina que se desea reconocer. Si una pgina no tiene el layout marcado NO SER LEDA. El procesamiento del layout puede hacerse automticamente y para todas las pginas; o sealar las reas de reconocimiento manualmente. CONTROL DEL LAYOUT (C2): En el caso del procesamiento automtico del layout, conviene (una vez que FR ha definido el layout de cada pgina): eliminar del mismo los nmeros de pgina, y cabezales y pies de pgina (si los hubiera). eliminar todas otras imperfecciones que el FR hubiera entendido como dibujos o textos. corregir los recuadros cuando hubiera eliminado un texto o un ttulo, o un numero de captulo por error. Verificar el orden de los cuadros de texto a reconocer. En el caso de realizar la marcacin manualmente, conviene hacer una revisin del orden de los recuadros a reconocer. EL RECONOCIMIENTO PTICO DE CARACTERES (OCR): Antes de proceder al reconocimiento de todas las pginas hay que verificar: el idioma de reconocimiento (generalmente, espaol) Verificar en la "opciones" [Tools>Options>Formatting] que retenga "font & font size" (caractersticas de fuente y tamao) lo que permitir conservar las itlicas y negritas del texto y las diferencias de tamao de ttulos y subttulos. Conviene tambin que corrija automticamente los espacios antes y despus de la puntuacin (chequear la casilla de esta opcin). Luego hacemos reconocer el texto. Hasta donde s FR trabaja de esta manera: 1) reconoce cada letra por su contorno; 2) cuando se topa con un espacio mayor entre una letra y otra reconoce las letras prximas como palabra; 3) en una segunda pasada compara esa palabra contra un diccionario del idioma elegido, si la palabra aparece en su diccionario la acepta como tal; si la palabra tiene alguna alteracin (p. ej. lee "opcion", busca en su diccionario y la palabra ms prxima es "opcin", su algoritmo admite que puede ser un error de la imagen y escribe opcin) escribe la palabra como la considera correcta y seala la duda con una marca de color (celeste); si la palabra no figura en su diccionario la escribe como reconoce cada letra y la marca en color (celeste). FR tiene varios niveles de correccin. Y, no lo he probado, pero creo que puede suspenderse la autocorreccin. CONTROL DE LAS DUDAS Y ERRORES DEL OCR (C3): Una vez ledo el texto FR deja marcas en color celeste de todas las dudas que ha tenido. Hay que hacer un repaso pagina por pgina mirando las dudas que ha marcado. La regla es esta: si FR marca con celeste pero nosotros no observamos que haya ningn problema dejamos esa marcacin tal como est, si en cambio notamos que en lo sealado hay un error, lo corregimos cotejando con la imagen ampliada que aparece en la ventana inferior. Muchos de estos errores no podrn ser corregidos o detectados por Word as es que SE HACE NECESARIO realizar estas correcciones aqu en FR (antes de salvar el texto para Word). El texto as depurado ya ha cumplido con los controles 123 de modo que su calificacin sera [C123], donde C quiere decir "Control". Tip: Cuando uno va a realiza este control conviene reacomodar las tres ventanas

de modo que la ventana del texto ampliado y la del texto ledo por OCR tengan mayor espacio. Usando el botn derecho del mouse se clickea en la ventana y se especifica el zoom ms conveniente para la imagen de texto que se tiene. Esta revisin entonces lleva bastante menos tiempo pues se realiza ms rpidamente. Las ventanas de FR se pueden personalizar y acomodar para que cada tarea se ms fcil y controlada (pueden moverlas, reducirlas, ampliarlas, cerarlas o abrirlas a gusto; vale la pena dedicarle un poco de tiempo a acomodarlas antes de la tarea). GUARDAR EL TEXTO RECONOCIDO: FR da toda una serie de opciones para guardar el texto. Yo generalmente lo guardo como html, sino como documento de word o como rtf. Tip: Lo guardo como html cuando quiero tener en Word una marcacin adicional para saber donde estaban en el documento original los finales de pgina. Al abrir el documento en el explorer, copiar y, luego, pegar en Word. Los fines de pgina aparecen marcados por un grfico pequeo que se puede usar como marcador para ser removidos a medida que las pginas son ensambladas unas con otras. CORRECCIN DEL TEXTO EN WORD (C4): Antes de controlar automticamente el texto con el corrector ortogrfico de Word, hago las siguientes reparaciones: 1) Corrijo los saltos de pgina en medio de un prrafo. Truco: Los prrafos interrumpidos por el salto de pgina comnmente no terminan en punto sino en el sino al concluir una palabra (Si es al silabear una palabra vase el punto siguiente). Por lo tanto para detectarlos rpidamente se realiza una bsqueda (Editar > buscar [Edit>find]) de "cualquier letra" [any letter] + salto de prrafo [paragraf mark] (^$^p) [pueden cortar y pegar esta orden en la ventana de dialogo de "Edit > Find" (Editar > Buscar)] ATENCIN: NO HAY QUE HACER EN ESOS CASOS REEMPLAZO AUTOMTICO PORQUE CAMBIARA TAMBIN LA LETRA ("any letter" [=cualquier letra]) DE LA CONSIGNA. Una vez ubicado el caso a corregir hay que detenerse y corregirlo manualmente (Actualmente se trabaja en una macro para solucionar esto automticamente). Tambin deben buscarse los casos de lnea trunca como ,^p [=coma + salto de prrafo ] o ;^p [=punto y coma + salto de prrafo ], :^p [dos puntos + salto de prrafo ]. Y cambiar el ^p por 1 espacio. [Se trabaja en una macro para solucionar este tema]. 2) Corregir los saltos de pgina con corte de palabra. Solucin: los saltos de pgina con corte de palabra se pueden corregir automticamente buscando la secuencia "guin + marca de salto de prrafo " (-^p) y reemplazndola por nada. Esto suprimir todos los guiones y los fin de prrafo dejando las palabras nuevamente unidas. Bsqueda y restablecimiento de las notas a pie de pgina y otros aditamentos en el interior del texto. Solucin: las notas a pie de pgina suelen ir numeradas o con una llamada o asterisco. Basta con hacer una bsqueda de "any digit" [cualquier nmero o dgito] o del signo que se utilice en el scan y restablecer nuevamente el link; esto es: cortar el texto de la nota, ir al punto donde la nota debe ser insertada, borrar la marca anterior, y seleccionar el comando "insert", luego "footnote", aceptar, y en el espacio destinado a la nota al pie de pgina "pegar" el texto cortado. Es lento pero no creo que se lo pueda automatizar ms. 5) Corregir Ttulos y subttulos para restablecer su diferenciacin y

jerarquizacin tipogrfica. No hay una solucin automtica. Hay que recorrer el texto y comprobarlos. Convendra asignar un estilo a los ttulos y otro a los subttulos (un estilo distinto del texto general y distinto de cualquier otro estilo usado). 6) Correccin de los errores ortogrficos que a veces no son detectados por el corrector automtico: a)Confusin del nexo coordinante "y" por "v" Solucin automtica: cambiar todos los "(espacio) v (espacio)" por "(espacio) y (espacio)" ya que en la sintaxis castellana "v" no se halla en ningn caso. De todas formas este cambio automtico conviene realizarlo cuando ya se hayan hecho revisiones generales del texto. b) Reemplazo de letras por dgitos, bsqueda de nmero de pgina que hayan escapado al control de layout, y comprobacin de dgitos en el documento: Solucin automtica: una vez realizada la correccin ortogrfica, realizar una bsqueda de "any digit" [cualquier nmero o dgito]. Conviene hacer esta comprobacin porque hay veces en que el texto original tiene defectos que pueden hacer que el OCR confunda por ejemplo "l" con "61" y el corrector automtico no lo detectara.

CORRECCIN CON EL CORRECTOR DE WORD: Con todo el texto seleccionado se escoge la opcin "set lenguaje" [definir lenguaje] y se indica el lenguaje del documento para que el corrector funcione correctamente; en la exigencia de correccin (herramientas, opciones [=tools, options]) se elige "exhaustiva". Y se realiza la correccin interactiva en word, hasta que el programa indique que sta ha terminado. Truco: Problema: Control de los nombres propios. Solucin: al usar la opcin "ignore all" [omitir todos] de la ventana del corrector hacemos que Word vaya construyendoun diccionario del que despus no queda ningn rastro salvo para ese documento y para la correccin que estamos realizando en ese momento. Ese diccionario "momentneo" es muy til. Cuando vemos un nombre bien escrito, y le damos "Ignore all" [omitir todos], no vuelve a preguntarnos por l en todo el documento, pero atencin, si vuelve a preguntar por ese mismo nombre es porque no est igual (puede ser que algo est mal en l: o le falta alguna letra o le falta un acento o alguna letra a sido sustituida, o ha sido partido por el silabeo y tiene un guin que no tena cuando la aceptamos la primera vez, y entonces tenemos la oportunidad de corregirlo).

Correccin manual por lectura del documento (C5): Todava los programas no son tan inteligentes como para comprender un documento y detectar coherencia. Si los distintos correctores han detectado que una combinacin de letras corresponde a una palabra que figura en sus diccionarios, sencillamente la dan por buena. Si el problema est en el original impreso en papel (porque los problemas de correccin han existido siempre y con alguna ediciones ms que con otras, como

por ejemplo con las viejas "Nebulae") la mquina no podr ayudarnos. En este sentido es importante: ANTES DE PONERNOS A ESCANEAR UN LIBRO (cosa que implica considerable trabajo si atendemos a que su correccin a conciencia lleva cierto tiempo y esfuerzo) que usemos libros que hayamos ledo y en los que recordemos no haber hallado ningn fallo significativo de este tipo (como que le falten pginas o cosas as) . No sea que nos encontremos, cuando ya habamos hecho todo el trabajo que alguien le haba arrancado la ltima pgina o que un cuadernillo estaba fallado o que se era el primero de 2 tomos de la misma novela. En cambio si ya lo habamos ledo y no haba problemas y si cumplimos todos los pasos de correccin arriba descriptos, creo bien podemos pasarnos este ltimo paso sin culpa. NOMENCLATURA: Para que el que reciba el documento sepa en que etapa de correccin o de control se halla recomiendo siempre avisar entre corchetes el estado de control del documento. P. ej: un [C12345] es un documento que ha pasado por todas las etapas de control e incluso fue controlado por lectura directa, en cambi un [C1234] todava no ha recibido una supervisin por lectura directa.

RESPONSABILIDAD DEL CORRECTOR: La labor de los ulteriores lectores es muy relativa: - Si es que avisan si encuentran algn problema en el texto. - Si el que recibe el aviso puede realizar los cambios. - Que se pueda efectuar el cambio en todas las copias que existan del archivo para evitar que esa copia defectuosa siga circulando (Cosa no imposible, pero s altsimamente improbable en los casos de deteccin pronta) Pero imposible totalmente en la mayora de los casos en que existen ciertas demoras y las copia ya circulan en cds y por donde quin sabe dnde).

También podría gustarte