Está en la página 1de 34

PROCESO DE DIGITALIZACIN EN LA BIBLIOTECA NACIONAL DE ESPAA

BIBLIOTECA DIGITAL HISPNICA

Febrero, 2011 (versin 3.0)

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

Indice de contenidos 1. La Biblioteca Digital Hispnica (BDH). 3 2. Pasos previos a la digitalizacin .. 4 3. Digitalizacin. 10 4. Ficheros master y derivados..... 14 5. Control de calidad .. 18 6. Metadatos 19 7. Entorno tecnolgico25 8. Volcado de ficheros master.28 9. Motor de bsqueda 29 Glosario de trminos y abreviaturas 32

Pgina 2 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

1. LA BIBLIOTECA DIGITAL HISPNICA (BDH)


La Biblioteca Digital Hispnica (BDH) es un recurso en lnea que permite la consulta gratuita de decenas de miles de documentos conservados en los fondos de la Biblioteca Nacional de Espaa (BNE). Este portal fue creado en 2008 con el objetivo de contribuir a cumplir la misin de conservacin, gestin y difusin del Patrimonio Bibliogrfico espaol en cualquier soporte encomendada a la BNE. Igualmente es la forma de dar visibilidad a un gran proyecto de digitalizacin sistemtica que entonces se iniciaba. Originalmente se compuso de las obras digitalizadas que durante aos anteriores haba ido acumulando la BNE como resultado de proyectos de digitalizacin puntuales o de reproducciones llevadas a cabo por el Departamento de Preservacin y Conservacin en el desarrollo de su trabajo. La aparicin del portal en 2008 hizo patente la voluntad de la BNE no slo de contar con un sitio nico de consulta de los objetos digitales sino tambin de desarrollar desde ese momento una poltica de digitalizacin sistemtica de sus fondos. Este proyecto recibi adems un gran impulso gracias al patrocinio que durante cinco aos, el perodo 20082012, se comprometi a ofrecer la empresa Telefnica. La digitalizacin sistemtica de colecciones se debe considerar a estas alturas, ms que un proyecto, un proceso que afecta a casi todos los Departamentos y reas de la BNE. A da de hoy las tareas implicadas desde que se decide qu se va a digitalizar hasta que finalmente est accesible en el portal se han incorporado de modo casi pleno en todas las rutinas de los diferentes Servicios de la Biblioteca. Este proceso, por tanto, hay que valorarlo no slo por lo que mejora el servicio que la BNE ofrece a los usuarios, sino tambin por lo que ha supuesto de adaptacin al cambio para la institucin y para las personas que la componen. Aunque el proyecto nace sobre la base de algunas colecciones ya existentes, lo cierto es que el camino recorrido desde su aparicin ha sido casi por completo una novedad. Ha sido necesario fijar los procedimientos de trabajo, establecer los criterios de seleccin, los controles de calidad, disear e implantar un nuevo interfaz de bsqueda, etc. Adems de las dificultades propias de esta tarea, hay que tener en cuenta la evolucin tecnolgica que no se detiene y que exige permanente revisin y actualizacin de criterios y procesos. La BNE cuenta desde hace tiempo con otro gran proyecto de digitalizacin sistemtica de prensa antigua coordinado desde el Departamento de Prensa y Revistas. Este proyecto, la Hemeroteca Digital, ha logrado la digitalizacin de millones de pginas de gran valor histrico y muy apreciadas por los usuarios. La BDH ofrece desde enero de 2011 la posibilidad de consultar desde su interfaz las publicaciones digitalizadas en el marco de este proyecto, concluyendo as el propsito inicial de presentar en un nico punto de consulta todos los documentos digitalizados de la BNE. Como resultado de todo esto, la BDH se ha convertido a su vez en una pequea (o no tanto) biblioteca que requiere organizar los fondos, describirlos, mantener un catlogo,

Pgina 3 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

facilitar el acceso y atender a los usuarios; tareas en las que de un modo y otro estn implicados, como ya se ha sealado, todos los Servicios de la BNE. Cabe sealar tambin que la BDH se ha desarrollado segn un modelo econmico de colaboracin entre el sector pblico y el privado que ha sido igualmente novedoso por su importancia. Este modelo se puede considerar en todos los sentidos plenamente beneficioso para la institucin que ha recibido una significativa financiacin por parte de Telfonica, manteniendo, sin embargo, toda la autonoma necesaria para organizar el proyecto y para establecer los criterios de calidad que son exigibles a esta institucin. Del mismo modo, la titularidad de las imgenes sigue siendo exclusivamente de la BNE. Este conjunto de documentos representan la contribucin de la BNE a Europeana, a Biblioteca Digital Europea, que pretende ofrecer en un nico interfaz de consulta, acceso a los recursos digitales de archivos, bibliotecas, museos y archivos audiovisuales de toda Europa. Tambin est representado en Hispana, el recolector de objetos digitales del Ministerio de Cultura. En este documento se detalla el flujo de trabajo necesario para llevar a cabo el proceso que permite poner una obra a disposicin del usuario en la BDH, as como los criterios de seleccin, tcnicos y de calidad que guan todo el proceso.

2. PASOS PREVIOS A LA DIGITALIZACIN


La creacin de colecciones digitales se enmarca dentro de un proceso transversal, que a grandes rasgos, puede resumirse en las siguientes etapas:

2.1 Criterios de seleccin


Como ya se ha dicho ms arriba, el proyecto de digitalizacin que comenz en 2008 ha sido una novedad en la BNE. En el proceso ha sido necesario ir creando procedimientos y estableciendo criterios que, que en ocasiones, han evolucionado en funcin de las necesidades o de las posibilidades que iban apareciendo. La seleccin de colecciones se plante desde el comienzo teniendo presente un criterio temtico que permitier organizar los documentos de acuerdo a caractersticas comunes. Los diferentes tipos de documentos que se han ido incorporando han hecho que el propio concepto de coleccin haya evolucionado y en cierto modo se haya ampliado en funcin del aumento de documentos digitalizados y de la incorporacin de nuevos materiales. El proyecto de digitalizacin de la BNE se centra nicamente en los fondos de dominio pblico, es decir, aquellos que estn libres de derechos de autor. Esto supone referirse a las obras conservadas en la BNE cuyo autor haya fallecido hace 70 u 80 aos
Pgina 4 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

(dependiendo de su fecha de nacimiento) y, por supuesto, siempre que no se trate de ediciones nuevas tambin protegidas en el Texto Refundido de la Ley de Propiedad Intelectual (Ley 23/2006, de 7 de julio) actualmente vigente en Espaa. Hay que sealar sin embargo un proyecto piloto que ha llevado a cabo la BNe para ofrecer contenido sujeto a derechos de autor. Este proyecto, Enclave, en colaboracin con los editores ha permitido incorporar 2812 obras que pueden ser encontradas en el portal de la BDH. En el propio portal el usuario puede consultar alrededor del 20% de la obra y, en caso de interesarle, puede navegar hacia la pgina del editor donde llevar a cabo la compra. Al margen de su pertenencia al dominio pblico hay otra serie de principios generales que guan la seleccin de documentos: La relevancia del contenido. Muchas de las colecciones se han seleccionado mediante un trabajo exhaustivo por parte del Servicio de Informacin Bibliogrfica, con el fin de crear relaciones de documentos especialmente pertinentes para un determinado tema: ocio, viajes, ciencia, independencia hispanoamericana. En otras ocasiones esta unidad proviene de tratar de ofrecer la produccin completa de un autor. El inters del material. Desde las Salas de lectura de la BNE se han seleccionado colecciones de documentos cuyas caractersticas materiales son interesantes en s mismas: manuscritos, incunables, dibujos de arquitectura, grabado alemn Otro criterio general que se combina a la hora de seleccionar los documentos es el inters que puede tener para los usuarios. La aplicacin de este criterio es posible gracias al conocimiento de la coleccin y de los usuarios que tienen los bibliotecarios de la BNE. El valor patrimonial es otro criterio que inspira la seleccin de documentos y que persigue que las obras aceptadas tradicionalmente como obras maestras figuren en la BDH. Aspectos relativos a la preservacin del documento fsico que se digitaliza. Dado que un documento digitalizado sufrir un menor nmero de consultas, la digitalizacin se convierte as en una tcnica privilegiada de preservacin. El seguimiento de unos criterios u otros puede suponer en ocasiones tomar decisiones diferentes. ste es el caso, por ejemplo, la eleccin de las ediciones que deben ser digitalizadas. En colecciones cuyo fin principal es tratar una materia se opt por seleccionar una nica edicin. Sin embargo, cuando se persigue recoger la produccin integra de un autor, se digitalizan las sucesivas ediciones de una obra al entender que en este caso las variaciones pueden ser de inters para el especialista. En el caso del proyecto de digitalizacin de la prensa histrica, los criterios generales son los mismos aunque conviene aadir algunas precisiones. El objetivo es cubrir la evolucin histrica de la prensa espaola, desde sus inicios

Pgina 5 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

hasta principios del siglo XX, respetando siempre las limitaciones que marca nuestra legislacin en temas de propiedad intelectual. El criterio que ha guiado la composicin de esta coleccin ha sido seleccionar peridicos y revistas representativos de su poca, que reflejaran la riqueza temtica de la edicin hemerogrfica hispana y de los que se conservaran colecciones completas. Quienes visiten la hemeroteca encontrarn prensa poltica, satrica, humorstica, cientfica, religiosa, ilustrada, amena, deportiva, artstica, literaria, etc.

2.2 Extraccin del catlogo automatizado


Los ttulos seleccionados se marcan en Unicorn (SIGB) en un campo local del formato MARC (899), con un cdigo asignado a tal fin, para proceder despus a la extraccin de los mismos. Cada vez que un registro se considere idneo para la coleccin, deber comprobarse antes si la obra ha sido ya digitalizada por la BNE. Finalizada la fase de seleccin de ttulos, el rea de Automatizacin y Organizacin de Procesos realiza la extraccin de los registros marcados de acuerdo a los criterios transmitidos por el rea de Biblioteca Digital. Tras la extraccin, dichos registros se cargan en una base de datos de trabajo interno, comenzando de esta forma el flujo de tareas que implican la digitalizacin de una obra.

2.3 Prstamo de ttulos


El personal de salas se encarga de realizar el prstamo de los ttulos seleccionados, as como de supervisar la colocacin de los fondos, la devolucin y el traslado de los fondos a los diferentes implicados en el flujo de trabajo (servicios responsables del proceso tcnico y/o digitalizadores). El prstamo de fondos se lleva a cabo en dos procesos dentro del proyecto de digitalizacin: o Seleccin de fondos a digitalizar: En este momento tiene lugar la correspondiente entrega de fondos al Departamento de Proceso Tcnico (fondo Moderno) o al Departamento especializado en determinado tipo de material (Patrimonio Bibliogrfico, Bellas Artes y Cartografa, Msica y Audiovisuales), con el fin de que se revisen los documentos originales y se seleccione el ejemplar a digitalizar. Cada sala establece una media de fondos a sacar diariamente, en funcin del volumen de trabajo asumible acorde con los recursos humanos y materiales de que disponga. En el caso de fondo moderno, dicha media es de 40 ttulos diarios. Condicin sine qua non para este movimiento masivo de fondos, es la colocacin del cdigo de barras con el IDITEM del ejemplar. Recopilacin de fondos que componen el/los lote(s) de digitalizacin diaria.

Pgina 6 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

2.4 Revisin y seleccin de ejemplares


En esta fase, el Departamento de Proceso Tcnico (en el caso del fondo moderno) o el Departamento especializado (para los fondos de carcter singular, incluido el antiguo) proceden a la unificacin del registro bibliogrfico. Esta tarea consiste en la revisin de los ttulos de inters, identificacin de bibliogrficos repetidos y gestin de altas y bajas de registros y/o signaturas que esto origine. De todo esto se deduce fcilmente que la tarea de digitalizacin est suponiendo una labor de depuracin del catalgo bibliogrfico. A continuacin se revisa y selecciona el ejemplar ms adecuado para ser digitalizado. En el caso del fondo moderno esta revisin manual la realiza directamente un tcnico del Departamento de Preservacin y Conservacin. En el resto de casos, esta participacin se hace patente siempre que el personal de los departamentos as lo requiera. 2.4.1. Pautas para determinar si un ejemplar es apto para digitalizar: Si el libro ha sido microfilmado recientemente y el estado de conservacin y caractersticas del original grado de apertura- ha permitido la obtencin de microformas adecuada siempre se deber dar prioridad a la digitalizacin de la copia sobre el original, excepto en los casos en los que el documento original presente imgenes en color, fotografas o grabados. o No se debern escanear masivamente o se deber prestar atencin durante los procesos de seleccin a los siguientes documentos: 1. Libros quebradizos. Si las hojas presentan prdidas, se parten fcilmente o se desprenden del libro no podr ser escaneado automticamente. Se deber localizar, en caso de que exista, un ejemplar en mejores condiciones u optar, en su defecto, porque la digitalizacin se realice con el equipamiento tcnico y personal del Departamento de Preservacin y Conservacin. 2. Libros quebradizos en la zona del lomo: Encuadernaciones a gutapercha o a la americana, rsticas y encuadernaciones de lomo rgido (especialmente entre los siglos XV-XVIII). El exceso de refuerzo en el lomo y de encolado puede provocar la rotura de la encuadernacin. Se rechazarn todos aquellos ejemplares que no puedan ser abiertos con comodidad en un ngulo de 135. 3. Algunas encuadernaciones presentan encolados cidos en el lomo. Se examinar la costura del ejemplar y se rechazarn todos aquellos en los que aparezcan hojas sueltas por rotura en el pliegue. Este problema suele ser ms frecuente en las primeras y ltimas hojas. 4. Encuadernaciones rotas en la zona del cajo bisagra de la tapa delantera o trasera. 5. Ejemplares con ataques graves de microorganismos o de insectos, en los que aparezcan fragmentos de papel, hojas sueltas o dbiles. 6. Ejemplares con graves problemas fsicos, como hojas desgarradas, sueltas o con prdidas. 7. Ejemplares con mapas o grabados desplegables.

Pgina 7 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

8. Ejemplares gravemente deformados por accin del agua o de la mala colocacin. En impresos del XVII y XVIII pueden presentar deformaciones importantes en la caja de texto. 9. Papel rgido. A pesar de que no presenten problemas de acidez, no se podrn escanear los libros en los que el papel sea grueso y no se flexione con facilidad. 10. Cuando existan varios ejemplares de una misma obra y uno de ellos sea una edicin facticia, se elegir otra opcin. 11. Cuando existan varios ejemplares de una misma obra y uno de ellos est encuadernado al estilo Agapito (en vez de lomo (piel o cartn) hay restos de goma) se elegir este ejemplar, confirmando antes que su estado de conservacin es adecuado. 12. Cuando se trate de folletos signatura VC y existan varios ejemplares se elegir siempre el que est encuadernado. 13. Cuando existan varios ejemplares de una misma obra y uno de ellos presente los cuadernillos cerrados in-tonso se escoger otro ejemplar. Si no es posible, se anotar la incidencia y se enviar al Departamento de Preservacin y Conservacin. 14. Cuando se trate de un ejemplar nico debera digitalizarse con especial cuidado. Requerida marcado o identificacin especial. 15. En el caso de que no existan otras opciones y deban elegirse ejemplares con contenedores de conservacin hay que prestar especial atencin, ya que pueden estar protegiendo ejemplares con encuadernaciones valiosas, ejemplares muy deteriorados o ejemplares nicos. En estos casos podemos suponer que: En caso en que el ejemplar tiene punto rojo (retirado de consulta): Si se trata de un ejemplar nico y en buen estado se le ha puesto punto rojo para asegurar su conservacin. En ese caso se aconseja digitalizar desde el microfilme existente, excepto en los casos en los que el documento original presente imgenes en color, fotografas o grabados. Si el ejemplar no es nico se ha retirado de consulta por estar cido o deteriorado. En ese caso se aconseja digitalizar otro ejemplar en mejor estado o digitalizar desde el microfilme existente

En caso en que el ejemplar tenga punto verde Si se trata de un ejemplar nico debera digitalizarse con especial cuidado por parte de personal especializado. Si no es nico sera mejor elegir otro ejemplar para digitalizar, porque en principio el punto verde indicara el mejor ejemplar, que es el que tiene reproduccin en microfilme.
Pgina 8 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

2.5 Catalogacin y Clasificacin


Una vez se ha seleccionado el ejemplar ms adecuado para digitalizar, el personal encargado de la catalogacin y clasificacin de los registros: - Corrige y amplia la descripcin bibliogrfica - Y asigna una coleccin temtica a la obra segn el esquema temtico abreviado que se maneja en BDH y que deriva de la CDU (Clasificacin Decimal Universal).

2.6 Planificacin y lotes de trabajo


Tras la revisin de ttulos y la seleccin de ejemplares, en el rea de Biblioteca Digital: o Se generan los ficheros de metadatos descriptivos asociados en formato MARC 21. Antes de su envio a la empresa responsable de la carga en el SGOD de BDH, se procede a una revisin de los marcados en el 899, y la presencia/ausencia de 856. De esta forma se minimiza el riesgo de introducir en la cadena de digitalizacin obras que ya cuentan con una reproduccin de calidad. Estos ficheros se obtienen a travs de UNICORN, y se asocian a cada uno de los lotes de digitalizacin. Posteriormente, se transforman a formato MARC21XML, con las especificaciones requeridas para su carga en el sistema de gestin de objetos digitales (SGOD) de la BNE. Se elaboran los lotes diarios de trabajo para su digitalizacin, manteniendo en lotes independientes los ttulos simples de los ttulos multivolumen y, a su vez, organizados por coleccin. Para la preparacin de los lotes se manejan dos parmetros bsicos: 9 El limite mximo de pginas a digitalizar/da 9 El nmero mximo de ejemplares diarios que pueden asumir las salas prestatarias. Actualmente, estos lmites son de: 12.000 pginas y/o 80 ejemplares diarios. Una vez elaborados los lotes, a todos los implicados en el proceso se les distribuye un listado con los datos mnimos que permiten identificar los ttulos y ejemplares a digitalizar cada da. Dichos implicados son: salas prestatarias, departamento de preservacin y conservacin y digitalizadores.

2.7 Prstamo de obras al digitalizador


A partir del listado de lotes elaborado se realizan las tareas necesarias que permiten el prstamo al digitalizador a nivel lgico y a nivel fsico comenzando as el proceso de escaneado propiamente dicho.

Pgina 9 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

3. DIGITALIZACIN
Se detalla a continuacin el proceso general por el que pasa una obra desde que se digitaliza hasta que se carga en el SGOD de la BNE (Digitool): 1. En primer lugar se procede a la digitalizacin de la obra, obteniendo imgenes en formato TIFF, con una resolucin optica de 300-400dpi, en gris o a color, dependiendo del tipo de obra. La manipulacin de la obra durante el proceso de digitalizacin respetar las especificaciones de conservacin establecidas por la BNE.

2. Se lleva a cabo un control de calidad de las imgenes TIFF MASTER una a una, para detectar cualquier salto de pgina o desenfoque, que de producirse, se corrige de inmediato, digitalizando la imagen nuevamente. De manera simultnea las imgenes TIFF MASTER se almacenan en un servidor. 3. A continuacin se realiza el enderezamiento de las imgenes con el programa ACDsee y en caso de que surgiese cualquier necesidad de correccin, esta se realiza con el programa Photoshop. 4. Tras el proceso de escaneado, las imgenes TIFF MASTER son recortadas en dos partes, es decir, un fichero por cada pgina. El recorte se lleva a cabo con el programa WinCorte o con PhotoShop, obteniendo de esta forma un derivado de la imgenes originales. Se generan por tanto, dos tipos de imgenes en formato TIFF sin comprimir, uno con carta de color y escala mtrica-, y otro recortado a pgina simple sin carta de color ni escala mtrica.

Pgina 10 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

5. Cada imagen resultante de la digitalizacin (tanto TIFF MASTER como TIFF recortado), queda identificada con la signatura del ejemplar de la Biblioteca Nacional. 6. Se revisan de nuevo las imgenes, ya que tras el primer recorte automatizado puede quedar algn marco negro a su alrededor. Estos bordes se recortan manualmente. 7. Seguidamente la imagen se trata con el fin de mejorar el texto sin perder informacin, desechando manchas y suciedad que han sido originadas por el paso del tiempo, el uso y/o la calidad del papel.

8. El siguiente proceso analiza la inclinacin del texto para corregirlo en caso necesario. Se centra el texto manualmente y se unifica la medida del tamao de todas y cada una de las imgenes, a excepcin de mapas y lminas de color.
Pgina 11 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

Esto se consigue utilizando una media sobre la medida del tamao de las pginas, logrando as que sea lo ms fidedigno al libro. El programa utilizado es interno y hecho para tal fin.

9. Las imgenes se procesan automticamente para convertirlas a blanco y negro. En el proceso se elimina la suciedad o manchas que hayan podido quedar despus del tratamiento de las imgenes TIFF. 10. Se generan los archivos de difusin, en formato PDF o JPEG. A continuacin se pasa el proceso de OCR (Reconocimiento Optico de Caracteres), se crean los marcadores en los pdf, y se inserta la marca de agua de la BNE a travs de un archivo de imagen GIF.

11. Se procede despus a la verificacin de nombrado de imgenes, ejecutando un proceso que comprueba que todos los ficheros de cada ejemplar tienen exactamente el mismo nombre y que su nmero de secuencia comienza por 0000 y contina sin saltos. 12. De cada archivo TIFF MASTER se genera la estructura de metadatos de preservacin PREMIS.

Pgina 12 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

13. Se relaciona posteriormente cada archivo de difusin PDF/JPEG con su registro/s MARC, generando la estructura METS/MARC/COMPLEX/SIMPLE correspondiente. 14. Antes de la carga en el SGOD, se realiza el control de calidad del 20% de los ttulos de un lote y dentro de esa muestra se revisa un 20% de pginas incluyendo marcadores. La tasa de fiabilidad de la imagen deber ser del 99,25%. Y la tasa de fiabilidad de marcadores deber ser del 100% Si no se cumplen las tasas de fiabilidad, la imagen se digitaliza nuevamente. 15. Una vez superados los controles de calidad, se procede a ejecutar la carga de las obras digitalizadas en el SGOD (Digitool).

3.1 Criterios de creacin de marcadores


Los criterios de creacin de marcadores, dependiendo de si el libro tiene ndice o no y del tamao en nmero de pginas, son los siguientes: o Si el libro NO tiene ndice, se generan los marcadores correspondientes a las siguientes partes fsicas/lgicas del libro: 9 Encuadernacin 9 Portada (pgina del ttulo y autor) 9 ndice general 9 Seccin de ilustraciones (cuando aparecen todas juntas) 9 Bibliografa 9 Introduccin prlogo 9 Apndice 9 Fe de erratas 9 Divisin intelectual del contenido

Los marcadores se realizarn respetando el orden lgico del libro y se generarn en el caso de que el libro contase con esas partes. o Si el libro S tiene ndice, los marcadores se estableceran en funcin del nmero de pginas: 9 Si el nmero de pginas es inferior a 500, se realizarn 25 marcadores. 9 Si el nmero de pginas es superior a 500, el nmero total de marcadores deber ser el equivalente al 5% del nmero de pginas de libro.

Pgina 13 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

Ejemplo de marcador indicando los preliminares de una obra

4. FICHEROS MASTER Y DERIVADOS


Tras la digitalizacin de una obra se generan dos tipos de archivos:

4.1 Archivos de preservacin


Se considera archivo master de preservacin (TIFF master) a aqul que se ha realizado con la mxima calidad posible para los fines establecidos en cada caso. Sin alteraciones posteriores a su realizacin representa la copia de seguridad y se utiliza para producir los ficheros derivados o de difusin. Las recomendaciones descritas a continuacin, se han definido teniendo en cuenta las directrices de distintas instituciones bibliotecarias que se enfrentan a una casuistica analoga a la de la BNE. Tales recomendaciones deben considerarse como valores de referencia mnimos, y pueden variar en funcin de los avances tecnologicos y/o necesidades de la institucin y/o sus usuarios. 4.1.1. Aspectos tcnicos El cuadro siguiente presenta las caractersticas tcnicas adecuadas a cada tipo de documento relacionado en la primera columna. La columna Objetivo refleja la intencin de la reproduccin. En cuanto a la Resolucin, se trata de valores pticos, no interpolados, en escala 1:1. Como norma general las imgenes debern incluir escala de color si la digitalizacin es en color, y escala de grises si la digitalizacin se realiza en gris. El formato de imagen adoptado, en la actualidad, como ptimo para la preservacin es el TIFF. Independientemente de esto, hay que considerar que la evolucin tcnica puede proporcionar, en un futuro, otros formatos con garanta de calidad de archivo a tener en cuenta.

Pgina 14 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

TIPO DE DOCUMENTO Texto impreso SIN ilustraciones, prensa, panfletos, pginas mecanografiadas Msica: partituras, escalas anotadas, manuscritos de msica Manuscritos: escritos a mano, copias mecanografiadas

OBJETIVO Imagen del Texto Texto con OCR Acceso al contenido Reconocimiento de sus caractersticas materiales Acceso al contenido Reconocimiento de sus caractersticas materiales Bsqueda

RESOLUCION 300 ppp mnimo

PROFUNDIDAD DE COLOR Escala de grises 8 bits * Escala de grises 8 bits * Escala de grises 8 bits* Escala de grises 8 bits* Escala de grises 8 bits* Escala de grises 8 bits* 24-bit color

NOTAS

400 ppi

300 ppp mnimo 400 ppi 300 ppp mnimo 400 ppp 250 ppp mnimo *

*Color (24 bits) cuando el color sea una caracterstica importante del documento

Mapas: caracteres impresos color impreso hasta un tamao 56 cm x 87 cm

Reproduccin

400 ppp

24-bit color mnimo

Acceso al contenido Fotografas: tono continuo, color

300 ppp mnimo

Escala de grises 8 bits* 24-bit color mnimo Escala de grises 8 bits* 24-bit color

Reproduccin

Mximo soportado

*Color (24 bits) cuando el color sea una caracterstica importante del documento *La resolucin (ppp) depende del tamao del mapa, sobre todo en los casos en los que las secciones del mapa tienen que unirse y el tamao del archivo sobrepase los 500 MB *Color (24 bits) cuando el color sea una caracterstica importante del documento *Color (24 bits) cuando el color sea una caracterstica importante del documento

Acceso al contenido Material grfico Reproduccin Reconocimiento de sus caractersticas materiales Investigacin sobre sus caractersticas materiales

300 ppi mnimo Mximo soportado

Libros Especiales o Raros: Objetos de gran valor

300 ppp mnimo

24-bit color

600 ppp mnimo

24-bit color mnimo

Pgina 15 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

4.2 Archivos de difusin


Los archivos de difusin, son los ficheros resultado de las imgenes TIFF mster, y que se someten a un procesado acorde con las especificaciones tcnicas de digitalizacin de la Biblioteca Digital Hispnica. Los archivos de difusin se cargan en la Biblioteca Digital Hispnica como dos tipos de objetos: o Simples: un registro bibliogrfico con un nico archivo digital (PDF o JPEG). METS: un registro bibliogrfico con varios archivos digitales (PDFs o JPEG).

4.2.1. Formato de los archivos de difusin Los archivos de difusin van a tener dos tipos de formatos segn el tipo de material: PDF y JPEG.
TIPO DE DOCUMENTO ARCHIVO DE DIFUSIN

Texto impreso procedente de microforma Texto impreso procedente del original (incluidas partituras impresas) Incunables digitalizados directamente del soporte original Incunables digitalizados de microformas Material grfico digitalizado directamente del soporte original (grabados, estampas, dibujos, fotografas, carteles) Material grfico procedente de negativo Mapas y planos Manuscritos digitalizados directamente del soporte original (incluida msica manuscrita)

PDF con marcadores y OCR PDF con marcadores y OCR PDF con marcadores sin OCR PDF con marcadores sin OCR

JPEG a 300 ppp JPEG a 300 ppp JPEG a 300 ppp. En caso de que la toponimia y detalles del mapa o plano no se lean correctamente, se aumentar la calidad del JPEG. JPEG a 300 ppp

4.2.1.1. PDF de difusin Las lminas, ilustraciones a color y portadas vistosas (as como cualquier otro motivo destacable que perdiera sus detalles al presentarse en blanco y negro), la imagen de difusin se generar a color o escala de grises, con el fin de representar fielmente el
Pgina 16 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

original fsico digitalizado. De forma que los PDF presentados en Web podrn ser unos completamente en blanco y negro, otros con portadas a color y el resto en blanco y negro, o en blanco y negro y pginas internas en color o escala de grises. 4.2.1.2. Generacin de los PDF 9 Limpieza de los PDF: Los PDF no incluirn encuadernaciones y hojas en blanco anteriores a la portada que no contengan ningn tipo de informacin. Tampoco incluirn las hojas en blanco posteriores a la ltima pgina con informacin. El resto de hojas en blanco aparecern en la obra para no variar la paginacin. 9 Marca de agua de los PDF: Todas las pginas de los PDF, tanto en B/N como en escala de grises o color debern llevar la marca de agua de la BNE en la parte inferior de cada pgina.

9 Marcadores: Los ficheros PDF tendrn marcadores con la informacin de los captulos/partes/secciones. 4.2.1.3. JPEG de difusin Se generar un archivo JPEG a 300 ppp para su difusin, que garantize una visualizacin de calidad desde la Web. Los manuscritos y libros antiguos deben mantener la encuadernacin y las hojas de guarda o en blanco, pues conservan en la mayora de los casos informacin de inters para la identificacin de posibles procedencias o acerca de la forma de construir el libro. 4.2.1.4. Marca de agua de los archivos JPEG de difusin La marca de agua se insertar en el ngulo inferior derecho. Esta nunca deber tapar o superponerse sobre informacin del original.

Es necesario controlar el peso de las imgenes, tratando de que no resulten muy pesadas. En algunos casos, reducimos la calidad a unos 250 ppp aproximadamente, siempre que al aumentar la imagen no se pixele, para reducirlas un poco de peso.

Pgina 17 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

5. CONTROL DE CALIDAD
De los ficheros obtenidos en el proceso de digitalizacin, se realiza un control de calidad previo y posterior a la carga en Digitool (SGOD), consistente en las siguientes tareas:

5.1 Control de calidad previo a la carga en Digitool


o De acuerdo al nmero total de ficheros que se van a cargar en el sistema, se comprueba con la Unidad de Coordinacin Informtica las condiciones de almacenamiento de Digitool y de la base de datos Oracle. Para ello se les remite el nmero total de ficheros PDF, n de ingest, simples, complex, METS, as como el tamao en GB de estos ficheros. Comprobacin y revisin de signaturas que se van a cargar. Revisin de xml: De los xml generados se procede a muestrear un 5-10% de cada uno de los lotes que se va a cargar en Digitool. En la revisin de los xml se centra la atencin en las siguientes etiquetas: 9 Etiqueta 300: Para comprobar si la obra es no multivolumen y que, la eleccin del tipo de carga (simples, complex, mets) es la correcta. 9 Etiqueta 655: Para comprobar que la asociacin de tipo de material es correcta (libro, manuscrito, mapa) 9 Etiqueta 856: Debe coincidir exactamente con el nombre del archivo pdf al que va ir asociado el registro de metadatos (signatura en formato digital).

o o

5.2 Control de calidad posterior a la carga en Digitool


La carga de objetos digitalizados se realiza en el servidor de preproduccin de Digitool. Una vez se ha realizado dicha carga, se analiza en torno al 5-10% de los contenidos de los lotes, prestando especial atencin a los siguientes puntos: o o o Visualizacin correcta de los metadatos Visualizacin correcta de los archivos. Coherencia de los marcadores habilitados en los archivos pdf con respecto a los criterios establecidos.

Una vez resueltas todas las posibles incidencias detectadas, se procede a la migracin de las cargas del entorno de preproduccin a produccin, lo que supone la puesta a disposicin de los documentos digitalizados para los usuarios de la Biblioteca Digital Hispnica.

Pgina 18 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

6. METADATOS
Los metadatos son el conjunto de informaciones relacionadas con los objetos digitales, cuyo objetivo es facilitar la descripcin, bsqueda, uso y gestin de las colecciones digitales. Los metadatos son las herramientas de las que disponemos para especificar la informacin contextual asociada a cada documento: su contenido, el historial de las transformaciones sufridas por cada objeto digital, las especificaciones de los equipos fsicos necesarias para la construccin de los emuladores, los formatos de cada fichero, los programas que permitirn acceder a cada registro. Los objetos digitales de la BDH contienen metadatos descriptivos y metadatos de preservacin (PREMIS).

6.1 Metadatos descriptivos


De cada una de las obras digitalizadas se generan metadatos descriptivos en formato Marc XML. Los ficheros .mrc de las obras a digitalizar se obtienen desde Unicorn (ISO 2709). Estos ficheros se desglosan en dos partes: o o .mrc que correspondan a objetos simples (documentos compuestos por una sola imagen). Se generar un fichero XML que englobar a todos los objetos simples. .mrc que correspondan a objetos complejos (documentos compuestos por varias imgenes). Se generar un fichero XML por cada objeto complejo que vaya a cargarse en la Biblioteca Digital Hispnica.

Para adecuar el formato de metadatos descriptivos a las caractersticas especificas de carga en Digitool (SGOD), se introducen los siguientes campos en cada uno de los registros: o Enlace entre imagen y registro (slo en el caso de los documentos simples): <datafield tag=856 ind1=4 ind2=1> <subfield code=u>Invent_029394.jpeg</subfield></datafield> o Tipo de documento: <datafield tag=655 ind1=1 ind2=7> <subfield code=a>Dibujos, grabados y fotografas</subfield></datafield>

6.2 Metadatos de preservacin (PREMIS)


Se generan adems metadatos de preservacin PREMIS que acompaen a los archivos master producidos en la fase de digitalizacin. Sendas tipologas de archivos, master y metadatos PREMIS, se volcarn en los sistemas destinados a tal efecto. A continuacin se muestra un esquema con la estructura de aquellos metadatos PREMIS que se incorporan a cada obra digitalizada. Abreviaturas a tener en cuenta en el esquema: M (Mandatory=Obligatorio) / O (Optional=Opcional) / R (Repetible) /NR (No Repetible):

Pgina 19 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

1.1 objectIdentifier (M, R) 1.1.1 objectIdentifierType (M, NR) 1.1.2 objectIdentifierValue (M, NR) 1.2 objectCategory (M, NR) 1.3 preservationLevel (O, R) [representation, file] 1.3.1 preservationLevelValue (M, NR) [representation, file] 1.4 significantProperties (O, R) 1.5 objectCharacteristics (M, R) [file, bitstream] 1.5.1 compositionLevel (M, NR) [file, bitstream] 1.5.2 fixity (O, R) [file, bitstream] 1.5.2.1 messageDigestAlgorithm (M, NR) [file, bitstream] 1.5.2.2 messageDigest (M, NR) [file, bitstream] 1.5.3 size (O, NR) [file, bitstream] 1.5.4 format (M, R) [file, bitstream] 1.5.4.1 formatDesignation (O, NR) [file, bitstream] 1.5.4.1.1 formatName (M, NR) [file, bitstream] 1.5.4.1.2 formatVersion (O, NR) [file, bitstream] 1.5.4.2 formatRegistry (O, NR) [file, bitstream] 1.5.4.2.1 formatRegistryName (M, NR) [file, bitstream] 1.5.4.2.2 formatRegistryKey (M, NR) [file, bitstream] 1.5.4.2.3 formatRegistryRole (O, NR) [file, bitstream] 1.5.5 creatingApplication (O, R) [file, bitstream] 1.5.5.1 creatingApplicationName (O, NR) [file, bitstream] 1.5.5.2 creatingApplicationVersion (O, NR) [file, bitstream] 1.5.5.3 dateCreatedByApplication (O, NR) [file, bitstream] 1.5.6 inhibitors (O, R) [file, bitstream] 1.5.6.1 inhibitorType (M, NR) [file, bitstream] 1.5.6.2 inhibitorTarget (O, R) [file, bitstream] 1.5.6.3 inhibitorKey (O, NR) [file, bitstream] 1.6 originalName (O, NR) [representation, file] 1.7 storage (M, R) [file, bitstream] 1.7.1 contentLocation (O, NR) [file, bitstream] 1.7.1.1 contentLocationType (M, NR) [file, bitstream] 1.7.1.2 contentLocationValue (M, NR) [file, bitstream] 1.7.2 storageMedium (O, NR) [file, bitstream] 1.8 environment (O, R)
Pgina 20 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

1.8.1 environmentCharacteristic (O, NR) 1.8.2 environmentPurpose (O, R) 1.8.3 environmentNote (O, R) 1.8.4 dependency (O, R) 1.8.4.1 dependencyName (O, R) 1.8.4.2 dependencyIdentifier (O, R) 1.8.4.2.1 dependencyIdentifierType (M, NR) 1.8.4.2.2 dependencyIdentifierValue (M, NR) 1.8.5 software (O, R) 1.8.5.1 swName (M, NR) 1.8.5.2 swVersion (O, NR) 1.8.5.3 swType (M, NR) 1.8.5.4 swOtherInformation (O, R) 1.8.5.5 swDependency (O, R) 1.8.6 hardware (O, R) 1.8.6.1 hwName (M, NR) 1.8.6.2 hwType (M, NR) 1.8.6.3 hwOtherInformation (O, R) 1.9 signatureInformation (O, R) [file, bitstream] 1.9.1 signature (O, R) 1.9.1.1 signatureEncoding (M, NR) [file, bitstream] 1.9.1.2 signer (O, NR) [file, bitstream] 1.9.1.3 signatureMethod (M, NR) [file, bitstream] 1.9.1.4 signatureValue (M, NR) [file, bitstream] 1.9.1.5 signatureValidationRules (M, NR) [file, bitstream] 1.9.1.6 signatureProperties (O, R) [file, bitstream] 1.9.1.7 keyInformation (O, NR) [file, bitstream]

1.10 relationship (O, R) 1.10.1 relationshipType (M, NR) 1.10.2 relationshipSubType (M, NR) 1.10.3 relatedObjectIdentification (M, R) 1.10.3.1 relatedObjectIdentifierType (M, NR) 1.10.3.2 relatedObjectIdentifierValue (M, NR) 1.10.3.3 relatedObjectSequence (O, NR) 1.10.4 relatedEventIdentification (O, R)
Pgina 21 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

1.10.4.1 relatedEventIdentifierType (M, NR) 1.10.4.2 relatedEventIdentifierValue (M, NR) 1.10.4.3 relatedEventSequence (O, NR) 1.11 linkingEventIdentifier (O, R)

Ejemplo de PREMIS cargado en la Biblioteca Digital Hispnica <?xml version=1.0 encoding=UTF-8 ?> - <premis:premis version=2.0 xmlns:xsi=http://www.w3.org/2001/XMLSchemainstance xmlns:xlink=http://www.w3.org/1999/xlink xmlns:premis=info:lc/xmlns/premis-v2 xsi:schemaLocation=info:lc/xmlns/premis-v2 http://www.loc.gov/standards/premis/v2/premisv20.xsd> - <premis:object xsi:type=premis:representation xmlID=VC_002307-006> - <premis:objectIdentifier> <premis:objectIdentifierType>899$j</premis:objectIdentifierType> <premis:objectIdentifierValue>VC/2307/6</premis:objectIdentifierValue> </premis:objectIdentifier> - <premis:preservationLevel> <premis:preservationLevelValue>full</premis:preservationLevelValue> <premis:preservationLevelDateAssigned>20070529</premis:preservationLevelDateAssig ned> </premis:preservationLevel> <premis:originalName>VC_002307-006</premis:originalName> </premis:object> - <premis:object xsi:type=premis:file> - <premis:objectIdentifier> <premis:objectIdentifierType>File</premis:objectIdentifierType> <premis:objectIdentifierValue>VC_002307-006_0001</premis:objectIdentifierValue> </premis:objectIdentifier> - <premis:preservationLevel> <premis:preservationLevelValue>full</premis:preservationLevelValue> <premis:preservationLevelDateAssigned>20070529</premis:preservationLevelDateAssig ned> </premis:preservationLevel> - <premis:objectCharacteristics> <premis:compositionLevel>0</premis:compositionLevel> <premis:size>1234567</premis:size> - <premis:format> - <premis:formatDesignation> <premis:formatName>image/tiff</premis:formatName> <premis:formatVersion>6.0</premis:formatVersion> </premis:formatDesignation> </premis:format> - <premis:creatingApplication> <premis:creatingApplicationName>Omniscan</premis:creatingApplicationName> <premis:creatingApplicationVersion>11.0</premis:creatingApplicationVersion> <premis:dateCreatedByApplication>20090102</premis:dateCreatedByApplication> </premis:creatingApplication>

Pgina 22 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

- <premis:objectCharacteristicsExtension> - <mix:mix xmlns:mix=http://www.loc.gov/mix/v20 xsi:schemaLocation=http://www.loc.gov/mix/v20 http://www.loc.gov/standards/mix/mix20/mix20.xsd> - <mix:BasicDigitalObjectInformation> <mix:byteOrder>big endian</mix:byteOrder> - <mix:Compression> <mix:compressionScheme>Uncompressed</mix:compressionScheme> </mix:Compression> </mix:BasicDigitalObjectInformation> - <mix:BasicImageInformation> - <mix:BasicImageCharacteristics> <mix:imageWidth>5530</mix:imageWidth> <mix:imageHeight>3210</mix:imageHeight> - <mix:PhotometricInterpretation> <mix:colorSpace>RGB</mix:colorSpace> </mix:PhotometricInterpretation> </mix:BasicImageCharacteristics> </mix:BasicImageInformation> - <mix:ImageCaptureMetadata> - <mix:ScannerCapture> <mix:scannerManufacturer>Zeutschel</mix:scannerManufacturer> - <mix:ScannerModel> <mix:scannerModelName>OS 10000-90 TT</mix:scannerModelName> <mix:scannerModelSerialNo>52008</mix:scannerModelSerialNo> </mix:ScannerModel> </mix:ScannerCapture> </mix:ImageCaptureMetadata> - <mix:ImageAssessmentMetadata> - <mix:ImageColorEncoding> - <mix:BitsPerSample> <mix:bitsPerSampleValue>8</mix:bitsPerSampleValue> </mix:BitsPerSample> <mix:samplesPerPixel>3</mix:samplesPerPixel> </mix:ImageColorEncoding> </mix:ImageAssessmentMetadata> </mix:mix> </premis:objectCharacteristicsExtension> </premis:objectCharacteristics> <premis:originalName>VC_002307-006_0001.tif</premis:originalName> - <premis:storage> - <premis:contentLocation> <premis:contentLocationType>filepath</premis:contentLocationType> <premis:contentLocationValue>VC_002307-006</premis:contentLocationValue> </premis:contentLocation> <premis:storageMedium>HD 001 Alta</premis:storageMedium> </premis:storage> - <premis:relationship> <premis:relationshipType>structural</premis:relationshipType> <premis:relationshipSubType>is included in</premis:relationshipSubType> - <premis:relatedObjectIdentification RelObjectXmlID=VC_002307-006> <premis:relatedObjectIdentifierType>899$j</premis:relatedObjectIdentifierType> <premis:relatedObjectIdentifierValue>VC/2307/6</premis:relatedObjectIdentifierValue> <premis:relatedObjectSequence>1</premis:relatedObjectSequence>
Pgina 23 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

</premis:relatedObjectIdentification> </premis:relationship> </premis:object> </premis:premis>

6.3 Almacenamiento de metadatos en el SGOD.


DIGITOOL es el SGOD que actualmente utiliza la BNE.

Se trata de una aplicacin diseada para gestionar de manera eficiente y sencilla los objetos digitales de una institucin, poniendo especial nfasis en la preservacin y difusin de estos fondos. Esta formado por siete mdulos, cada uno de los cuales est diseado para dar respuesta a las diferentes necesidades, funciones y flujos de trabajo propios del ciclo de vida de un objeto digital. A travs del modulo de ingesta, se realiza tanto la carga de objetos como la de sus metadatos asociados. Digitool cumple con los siguientes estandares: o o o Protocolo Z39.50 OAI-PMH Dublin Core

6.4.

Exportacin de metadatos. OAI-PMH

El protocolo OAI-PMH (Open Archives Initiative Protocol for Metadata Harvesting) se utiliza para la transmisin de metadatos en Internet. Su arquitectura basada en el modelo cliente servidor pone a disposicin del pblico metadatos en formato Dublin Core para que puedan ser recuperados. La comunicacin se realiza mediante el protocolo http y las respuestas estn codificadas en XML. En BDH contamos con un servidor OAI http://bibliotecadigitalhispanica.bne.es/OAI-PUB, a travs del cual se puede realizar un harvesting de los metadatos descriptivos. Esto se puede realizar a travs de comandos OAI o a travs de programas del tipo MEdit, pudiendose recuperar registros concretos, grupos de registros y los sets de OAI que hay definidos en BDH.

Pgina 24 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

Modelo de exportacin de metadatos OAI-PMH

7. ENTORNO TECNOLGICO
La BNE cuenta, de modo genrico, con las siguientes infraestructuras tecnolgicas: o o Sala de digitalizacin donde se encuentra instalados los escneres necesarios. Pistolas lectoras de cdigo de barras para facilitar el nombrado de las carpetas contenedoras de las imgenes producidas durante la digitalizacin. Esto facilita la carga de datos en el Sistema de Preservacin que actualmente est creando la Unidad de Coordinacin Informtica y que utiliza como identificador unvoco el IDITEM. Acceso a Internet para la gestin y control de la herramienta de flujo de trabajo. Licencias disponibles para el trabajo de administrador de Digitool (SGOD). Equipos informticos para la carga en Digitool (SGOD). Servidores de almacenamiento para el volcado de archivos master y metadatos PREMIS asociados. Equipos informticos para realizar el volcado de los archivos master. Aplicacin para el control de archivos master.

o o o o o o

7.1

Escneres

Las caractersticas tcnicas de los escneres utilizados son las adecuadas para el escaneado de los fondos, y que en modo alguno puedan deteriorar los originales. El modelo de escner utilizado vara en funcin de la tipologa del documento que se digitaliza, de acuerdo a las especificaciones tcnicas de la BNE.

Pgina 25 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

Los elementos que condicionan o intervienen en la eleccin del sistema de digitalizacin son: Formatos: 1. Tamao: El abanico de formatos comprende, al menos, desde un 8 a mayor de A1, teniendo en cuenta por tanto el porcentaje de los documentos 2. Grosor/peso: El fondo contiene ejemplares de distintos grosores. 3. Desplegables: relacionado con el formato del documento los desplegables suponen un aadido a tener en cuenta, tanto para la manipulacin del documento como para las dimensiones del escner. Caractersticas del documento: 4. Original en color: La mayora de los manuscritos contienen algn motivo coloreado de inters documental y necesario para su estudio o consulta. Esto hace necesario que el escner ofrezca garantas de reproduccin cromtica fiel. En relacin con el color los cdices miniados presentan una dificultad aadida en la reproduccin de los dorados. No es aconsejable el modelo copibook para originales donde el color sea una caracterstica esencial. 5. Encuadernacin: Las encuadernaciones rgidas no permiten una apertura total del libro en 180; asimismo las encuadernaciones cerradas pueden tener prdida de informacin en la parte central del documento. En ambos casos es aconsejable un escner que permita realizar la reproduccin pgina a pgina con objeto de obtener la menor prdida de informacin, as como mayor planitud del documento. 6. Material: Un porcentaje importante de manuscritos aparece en soporte pergamino. Las caractersticas especficas del soporte: hojas onduladas, prdida de zonas en el pliego, dureza del mismo etc. determinan una manipulacin especial, como inclusin de hojas que aslen las partes perdidas, y un escner que asegure el foco en los distintos planos del documento. Estado de conservacin: 7. Fragilidad del material 8. Falta de informacin: mutilaciones Diversidad de fondos: Los materiales especficos de las Secciones especiales, presenta diferentes caractersticas que motivan la diversidad de sistemas de escaneado: 9. Cdices en pergamino 10. Papel cido y friable 11. Grabados 12. Encuadernaciones histricas 13. Dibujos
Pgina 26 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

14. Fotografas 15. Coleccin de Ephemera 16. Carteles publicitarios y grandes formatos en general 7.1.1. Tipos de escneres

A grosso modo, los escneres utilizados para la digitalizacin de los diferentes materiales conservados en la BNE se clasifican en: Escneres tipo A: Para la digitalizacin en escala de grises de obras impresas (siglos XVIII a XIX) o o o o CopibookHD600; i2s. Bookeye 3 R2 Book2net ScannTECH 602i-6 602i-3

Escneres tipo B: Para la digitalizacin a color de obras manuscritas o impresas encuadernadas, mayoritariamente ilustradas y de fondos grficos en hojas sueltas (fotografas, carteles, mapas, colecciones de ephemera) o o Digibook Suprascan A1 Book2net A1

Escneres tipo C: Para la digitalizacin a color de obras que exijan una manipulacin especialmente cuidadosa debido al tipo de soporte (cdices, manuscritos miniados, manuscritos con tintas traspasadas, tintas ferroglicas, encuadernaciones histricas con elementos mtalicos) o Metis DRS5070

Escneres tipo D, donde se incluye la cmara digital, para colecciones fotogrficas y fondos no encuadernados de formato medio, as como el respaldo digital para originales de gran valor, especialmente delicados y que no puedan ser reproducidos mediante un escner. o o o Nikon D700 (calidad mnima) Nikon D3 Respaldo digital Sinar 75 (cuatro disparos)

Pgina 27 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

Se utiliza adems el Robot escner para aquellas obras cuyas caractersticas fsicas y estado de conservacin permite una actuacin mecanizada sobre el documento sin riesgo. Y escneres que permiten ngulos de apertura de 60-90, para obras que requieren este tipo de manipulacin.

8. VOLCADO DE FICHEROS MASTER


Con el objetivo de evitar la perdida de informacin, los ficheros master son volcados en una serie de unidades de almacenamiento habilitadas por la Unidad de Coordinacin Informtica. De esta forma se obtiene una copia fsica y fiable de los master y metadatos asociados en los sistemas de la BNE. Para control de este volcado, cada digitalizacin vendr acompaada de un documento Excel, que ser integrado en una base de datos interna, con los siguientes datos: o o Archivos: N de archivos, bien en Jpg bien en Tiff, que contiene la signatura. Mb: Tamao total de la carpeta. El peso se ha de dar en Mb, sin separadores de miles y con una coma para indicar dnde empiezan los decimales. No hay que indicar tampoco la unidad, ej. 30589,85 Localizacin: De acuerdo a la estructura de servidores definida por la BNE ej: DM01/Lote1/1/085698 Resolucin: 300, 200, 100, etc. (segn cada imagen) sin poner ppp o dpi, slo el n. En el caso de que variara entre las imgenes de una misma signatura, se consignar la resolucin predominante. Formato: TIFF. Versin: ORIGINAL, RECORTADO (segn corresponda) Color: Los valores posibles de este campo son: ByN, GRIS, COLOR, COLOR RGB 8, COLOR RGB 16. En el caso de convivir varias caractersticas de esta obra, se consignar la que predomine. o Visualizacin: Los valores posibles de este campo son: SIMPLE para tiff recortados a pgina simple DOBLE para tiff originales a doble pgina

o o

o o o

Fecha inicio: fecha de inicio de la fase del proyecto de digitalizacin ej: dd/mm/aaaa.

Pgina 28 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

o o

Fecha fin: fecha fin de la fase del proyecto de digitalizacin ej: dd/mm/aaaa. Empresa: Nombre de la empresa AD.

o Mquina: escner utilizado por la empresa, ej.: Digibook Scanner Suprascan. En el caso de haberse utilizado varias en una misma obra (por ejemplo, por haber combinado imgenes a color y en blanco y negro), se consignar la que predomine. o o Software: cuando sea posible, si no se queda en blanco ej: i2s Digibook Scanner Suprascan A0 10000 RGB. Observaciones: Fase de digitalizacin a la que pertenezca ej: F4

El nombrado de cada excel seguir el siguiente esquema: NOMBREFASE_discoN_ddmmaaaa ej: F3_disco2_15152010

8.1 Estructura de los servidores


La estructura en los servidores de la Unidad de Coordinacin Informtica para el volcado es la siguiente: o DM (para ficheros masters) o DMD (para ficheros derivados)

Segn se van ocupando se crean recursos necesarios con numeracin correlativa: DM01; DM02; DM03;DMD01, DMD02, DMD03

9. MOTOR DE BSQUEDA
El objetivo principal de un motor de bsqueda en un proyecto de digitalizacin, es lograr que la localizacin y navegacin sobre volmenes inmensos de materiales digitalizados sea lo ms sencilla, intuitiva y relevante posible. Actualmente, la Biblioteca Digital Hispnica utiliza SOLR como motor de bsqueda, un software de bsqueda de cdigo abierto, que permitir poder extender y desarrollar funcionalidades propias, al disponer del cdigo fuente. A travs de SOLR se indexan automticamente los contenidos publicados en Digitool (SGOD), visibles en una interfaz de bsqueda personalizada.

Pgina 29 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

Interfaz de la aplicacin de bsqueda sencilla

Interfaz de la aplicacin de bsqueda avanzada

SOLR indexa a travs de OAI, tanto el contenido estructurado (metadatos) como el contenido desestructurado (OCR).

Pgina 30 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

Entre las funcionalidades que ofrece este motor de bsqueda a travs de BDH se sealan las siguientes: o o o o o o Bsqueda bsica y conceptual Sugerencias de bsqueda segn se escribe (auto-cumplimentacin) Bsqueda paramtrica (filtros de navegacin) Hipervinculacin (relaciones entre documentos) Expansin de consultas Resmenes resaltando las palabras encontradas

Arquitectura SOLR en BDH

Arquitectura bsica

Pgina 31 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

GLOSARIO DE TRMINOS Y ABREVIATURAS

ACDsee: Software de edicin de imgenes digitales. BDH: Biblioteca Digital Hispnica Bits: El bit es la unidad mnima de informacin empleada en informatica. Es un digito del sistema de numeracin binario, representado a travs de dos valores: 0 1.

BNE: Biblioteca Nacional de Espaa CDU: Clasificacin Decimal Universal Digitool: Es un Sistema de Gestin de Objetos Digitales, que permite la explotacin de las colecciones digitales, los repositorios institucionales y los fondos multimedia. Se trata de un potente sistema que permite a las bibliotecas acadmicas y consorcios gestionar grandes colecciones y proporcionar acceso a sus recursos digitales. Las herramientas que incorpora permiten controlar todas las acciones relacionadas con los objetos digitales: catalogacin, archivo, indexacin, difusin, preservacin y control del copyright.

Dpi: Unidad de medida de la resolucin de una imagen (relacionado con la calidad) de un escner, una impresora, etc. Sirve para medir la resolucin que es la cantidad de puntos (pixeles) que entran en una pulgada.

Dublin Core: Es un modelo de metados elaborado por la DMCI (Dublin Core Metadata Initiative) una organizacin dedicada a fomentar la adopcin extensa de los estndares interoperables de los metadatos y a promover el desarrollo de los vocabularios especializados de metadatos para describir recursos. Es el sistema de metadatos ms popular en la descripcin de recursos electrnicos en Internet. Define un conjunto de propiedades que se pueden usar en la descripcin de un recurso (este disponible en formato electrnico o no) para facilitar su recuperacin.

JPEG: Es un formato de imagen para el almacenamiento y transmisin de imgenes en la Web. Los archivos de este tipo se nombran con la extensin .jpg. Su algoritmo de comprensin permite reducir el tamao de los ficheros, sin prdida o con prdica poco significativa de la calidad de imagen.

MARC 21: Estndar internacional tradicionalmente utilizado por bibliotecas de todo el mundo para el intercambio de informacin catalogrfica, con

modificaciones que permiten la descripcin de recursos electrnicos.

Pgina 32 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

Marca de agua: Es una tcnica clsica utilizada para marcar papel. Una filigrana o marca al agua es una imagen formada por diferencia de espesores en una hoja de papel. Se utiliza para evitar la falsificacin de documentos, para mostrar la autenticidad del origen de algn papel o impreso, como adorno o como diferenciacin entre diferentes fbricas de papel.

Megabyte (MB): Es una unidad de medidad de cantidad de datos informticos. Es la unidad ms tpica actualmente, junto al mltiplo inmediatamente superior, el gigabyte, usndose para especificar la capacidad de la memoria RAM, de las memorias de tarjetas grficas, de los CD-ROM, o el tamao de los programas, de los archivos grandes, etc. La capacidad de almacenamiento se mide habitualmente en gigabytes, es decir, en miles de megabytes.

METS: Se denomina METS al fichero xml, que contiene los datos de un registro bibliogrfico formado por varios archivos digitales (varios PDF o varios JPEG).

Metadados: Los metadatos son el conjunto de informaciones relacionadas con los objetos digitales, cuyo objetivo es facilitar la descripcin, bsqueda, uso y gestin de las colecciones digitales. Son herramientas que permiten especificar la informacin contextual asociada a cada documento: su contenido, el historial de las transformaciones sufridas por cada objeto digital, las especificaciones de los equipos fsicos necesarias para la construccin de los emuladores, los formatos de cada fichero, los programas que permitirn acceder a cada registro.

OAI-PMH: El protocolo OAI-PMH (Open Archives Initiative-Protocol Metadata Harvesting), es una herramienta de interoperabilidad independiente de la aplicacin que permite realizar el intercambio de informacin para que desde diferentes proveedores de servicio, se puedan hacer bsquedas que abarquen la informacin recopilada en distintos repositorios asociados. Los metadatos a transmitir va OAI-PMH debern codificarse en Dublin Core sin calificar con objeto de minimizar los problemas derivados de las conversiones entre mltiples formatos.

OCR: Cuyo desarrollo de sus abreviaturas es Reconocimiento Optico de Caracteres, es una tecnologa que se encarga de escanear y reconocer los caracteres de cualquier tipo de documentos.

El software OCR (Optical character recognition), transfiere esta informacin a formato electrnico, de forma rpida y precisa. No slo captura y escanea los datos que contiene el documento, sino que tambin los almacena en un archivo o base de datos y les proporciona un formato capaz de ser reconocido y recuperado, para ser usado en otras aplicaciones.
Pgina 33 http://bdh.bne.es/bnesearch/

Proceso de digitalizacin en la Biblioteca Nacional de Espaa

La utilizacin de la tecnologa OCR permite la explotacin de sus documentos y gestin electrnica, de forma gil y segura.

La captura de la informacin de los documentos o imgenes se puede efectuar manualmente desde un dispositivo, como un escaneador, que incorpora esta funcionalidad. PDF (Portable Document Format): Es un formato de almacenamiento de documentos desarrollado por la empresa Adobe Systems, especialmente adecuado para la presentacin de documentos complejos (mltiples pginas, combinacin de textos e imgenes de diferentes calidades). Este formato ofrece, entre otras ventajas, bastantes opciones de navegacin en el documento y entre diferentes documentos, fidelidad y seguridad de la copia digital y posibilidades de bsqueda y recuperacin a partir de los contenidos, incluyendo su inclusin en motores de bsqueda. PhotoShop: Software de edicin de imgenes estndar para profesionales. PREMIS: Metadatos de preservacin, que contienen la informacin que utiliza un repositorio para soportar el proceso de preservacin digital. SGOD: Sistema de Gestin de Objetos Digitales. Simplex: Se denomina Simplex al fichero xml, que contiene los datos de un registro bibliogrfico formado por un nico archivo digital (PDF o JPEG). TIFF (Tagged Image File Format): Es un formato de ficheros para imgenes con etiquetas. Esto se debe a que los ficheros TIFF contienen, adems de los datos de la imagen propiamente dicha, "etiquetas" en las que se archiva informacin sobre las caractersticas de la imagen, que sirve para su tratamiento posterior. Este formato es de aplicacin generalizada a la creacin de imgenes de alta calidad, produce ficheros de gran tamao, sin prdida, tiles como ficheros maestros pero inadecuados para la distribucin y acceso pblico a las colecciones. UNICORN: Es un Sistema Integrado de Gestin Bibliotecaria, utilizado por diferentes bibliotecas universitarias. Actualmente utilizado por la BNE.

Para cualquier consulta o sugerencia dirijase a la siguiente direccin de correo electrnico: bibliotecadigital@bne.es

Pgina 34 http://bdh.bne.es/bnesearch/

También podría gustarte