Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Curso de Preservacion Digital
Curso de Preservacion Digital
1
Programa
1. ¿Qué es realmente la preservación digital?
2. La viabilidad de la preservación digital: aspectos legales, organizativos y
económicos
3. Características de las necesidades de preservación en archivos,
bibliotecas, museos, administración pública y empresas privadas
4. La problemática técnica
5. El modelo OAIS
6. Estándares (METS, PREMIS…) y herramientas informáticas disponibles
7. Estrategias técnicas de preservación: refreshing, emulación y migración
8. Revisión de ejemplos de implementación: NARA-ERA, Koninklijke
Bibliotheek e-Depot, LOCKSS, Portico, Elsevier, Internet Archive, Library
of Congress, National Archives of Australia, DAITSS, MetaArchive
Cooperative, Multi-State Preservation Consortium (MSPC), iArxiu, etc.
9. Tendencias de la investigación y del mercado
10. Discusión de los elementos para el diseño y la aplicación de estrategias
de preservación
2
Tema 1.
¿Qué es realmente la preservación digital?
3
Un ejemplo: NASA Viking
5
La preservación digital: metas
6
La missió què vol dir preservar per sempre?
http://www.archives.gov/era/pdf/thibodeau-planet-storage-2005.pdf 7
La preservación digital: integridad y autenticidad
8
Negligencia benigna
9
Rotura de principios tradicionales de
conservación
• No negligencia benigna.
• No preservación basada en las condiciones
ambientales.
• No se conserva para cualquier usuario futuro.
Comunidad designada
• No se conserva la integridad externa del documento.
Propiedades significativas
10
Tema 2.
La viabilidad de la preservación digital:
aspectos legales, organizativos y
económicos
11
La preservación integral
• Aspectos legales
• Aspectos económicos
• Aspectos organizativos
• Aspectos técnicos
12
Aspectos legales
13
Durabilidad económica
(economic sustainability)
14
Los recursos humanos implicados
• Administradores institucionales
• Autores o creadores de los recursos
• Gabinetes legales
• Servicios informáticos
• Bibliotecarios y archiveros
15
Sistemas de auditoría y certificación
de preservación
• DRAMBORA - Reino Unido, Países Bajos
• Nestor - Alemania
• TRAC - Estados Unidos
16
Tema 3.
Características de las necesidades de
preservación en archivos, bibliotecas,
museos, administración pública y empresas
privadas
17
Actores ante la preservación digital
• Archivos
• Bibliotecas cultural heritage
• Museos
• Administración pública (ley 11/2007)
• Empresas privadas (facturación; inspección tributaria)
• Datos de investigación (datasets) (movimiento open data)
18
Características por sectores
Volumen X X X XX
Autenticidad X X X X
Complejidad
X X X X
técnica
Interoperabilidad X X X
Alto uso X X X
Derechos X X X X
Confidencialidad X X X
Interrelación
Principal de los ficheros Acceso y Arte Autenticidad,
Coste Almacenamiento
problema (el expediente preservación electrónico seguridad
electrónico)
19
Tema 4.
La problemática técnica
20
¿Conservar?
http://www-03.ibm.com/ibm/history/exhibits/storage/storage_intro.html 21
¿Conservar?
"U.S. Army Photo", number 163-12-62. Left: Patsy Simmers, holding ENIAC board Next: Mrs. Gail
Taylor, holding EDVAC board Next: Mrs. Milly Beck, holding ORDVAC board Right: Mrs. Norma Stec,
holding BRLESC-I board. http://ftp.arl.mil/ftp/historic-computers/ 22
¿Conservar?
Two women wiring the right side of the ENIAC with a new program, in the "pre- von Neumann"
days. "U.S. Army Photo" from the archives of the ARL Technical Library. Standing: Ester
Gerston Crouching: Gloria Ruth Gorden. http://ftp.arl.mil/ftp/historic-computers/ 23
¿Conservar?
Texto
Incremento de la
complejidad y
Fotografías del peligro de
desaparición
Audio
Vídeo
http://www.archives.gov/preservation/conferences/papers-2003/puglia.html 27
¿Qué es una película digital?
http://www.archives.gov/era/pdf/thibodeau-tnaarmg2005.pdf 29
¿Qué se ha de preservar? (2)
30
La preservación integral, a nivel técnico
Datos
Documentación y conocimiento
Documento web.html
Interfaz de usuario
Windows XP
Sistema operativo
Hardware PC Pentium IV
Red Internet
31
= 1 PB
The Large Synoptic Survey Telescope (LSST). 2014, Cerro Pachón, Chile
• Covering the entire sky visible from its site every three days, its rapid-fire, 3.2 billion
pixel camera will take more than 15 terabytes (15 million million bytes) of image data
each night, opening a movie-like window on objects that change or move. Over its
ten-year mission, LSST will produce the greatest movie ever made.
• Within minutes of acquiring each image, the LSST data system will compare the new
data with previous images and issue world-wide alerts on thousands of objects which
have varied in brightness or position on the sky. The wide-field images and catalog
data will then be stored in a 60 petabyte (60 thousand million million byte) database.
• Over ten years, LSST will automatically identify and characterize more than 20 billion
astronomical sources of light.
http://www.lsst.org/files/docs/400_news_0509.pdf 33
Las problemáticas según el tipo de material
• Fotografías
• Mapas
• Web
• Revistas científicas
• Libros
• Objetos compuestos
• Documentación administrativa
34
Tema 5.
El modelo OAIS
35
Funciones de un sistema de preservación.
El modelo OAIS
1. Ingestión
2. Almacenaje
3. Gestión de datos
4. Acceso
5. Preservación
6. Servicios comunes
36
Modelo OAIS
Reference Model for an Open Archival Information System (OAIS). Blue Book. Issue 1. January
2002. Washington DC, NASA. Management Council of the Consultative Committee for Space Data
Systems (CCSDS), January 2002. p. 4-1. Norma ISO 14721:2003.
http://public.ccsds.org/publications/archive/650x0b1.pdf 37
http://www.nationalarchives.gov.uk/pronom/default.htm
38
Unified Digital Formats Registry (UDFR)
http://www.udfr.org/
39
Tema 6.
Estándares y herramientas informáticas
disponibles
40
Tema 6.a
Estándares
41
La organización intelectual
Los modelos de datos:
• Entidades intelectuales
• Representaciones
• Objetos
• Ficheros
• Bitstream
42
Entidades intelectuales y objetos
Ejemplo 1: fotografía en 2 formatos
Intellectual
Entity:
“Picture of my
dog”
Representation1: Representation 2:
TIFF version JPEG2000 version
Bitstream 1:
Embedded
metadata
Intellectual Entity
Da Vinci Code by
Dan Brown
Representation 1
Representation 2
Page image
ebook version
version
• Descripción informática
• Informaciones de gestión: derechos, etc. METS
• Información de empaquetado
45
MODS
(Metadata Object Description Standard)
http://www.loc.gov/standards/mods/
46
Metadata Encoding and Transmission Standard
(METS)
http://www.loc.gov/standards/mets/
48
Exemplo de metadatos: fotografía de Louis
Amstrong
Visualización: http://lcweb2.loc.gov/diglib/ihas/loc.natlib.gottlieb.09601/default.html
49
Tema 6.b
Herramientas
50
Herramientas para el control de los ficheros
52
JHOVE
53
XENA
http://xena.sourceforge.net/
54
Bag-It
https://confluence.ucop.edu/display/Curation/BagIt
55
Tema 7.
Estrategias técnicas de preservación:
refreshing, emulación y migración
56
Técnicas de preservación
57
Tema 7.a
Refreshing
58
Cambio de soportes
59
Refreshing: recopia de los ficheros
Problemas:
Probabilidad de estar copiando datos ya deteriorados.
Una duda: ¿de qué servirán los datos en el futuro si no
dispondrán del software y el hardware para
ejecutarlos?
Necesidades:
Se ha de seguir un protocolo estricto y documentado.
Se han de separar los soportes de trabajo de los de
archivo o seguridad.
Se han de utilizar soportes de calidad.
Se han de conservar los soportes en óptimas
condiciones de temperatura, humedad, etc.
60
Refreshing: más allá de la recopia
61
Tema 7.b
Migración
62
Migración de formatos
A lo largo de los años los ficheros preservados deberán ser migrados a nuevos
formatos.
63
Migración de formatos
Razones:
Ir a versiones más recientes
Ir a formatos no propietarios a estándares
Ir a formatos no compilados en formato texto (ASCII)
Ir a estándares industriales "de facto" Word, Excel...
Abandonar formatos sin soporte o de fabricantes ya no existentes
Hardware: deja de funcionar el viejo y/o el nuevo obliga a la
migración
Requerimientos legales:
Caducan las licencias
Ahora se necesitan licencias
64
Normalización de formatos
65
Migración de formatos
• Necesidades:
Realizar exhaustivas pruebas previas.
Documentar la migración
Seguir procesos de migración ya probados o
consolidados.
Ser conscientes de la relación entre coste de la
migración y resultados.
Aplicar un nuevo plan de preservación a la información
migrada: copias de seguridad, refreshing... [empieza un
nuevo ciclo]
Recordar que existen migraciones de datos que se
pueden realizar forma automática desde las nuevas
versiones de los programas (ej.: Word).
No olvidar el hardware.
66
Riesgos asociados con el formato
de los ficheros de datos
67
Tema 7.c
Emulación
68
Emulación de software y hardware
• Tipos:
• Emulación de hardware. Normalmente se hace mediante una
emulación del sistema operativo y de los dispositivos de entrada y
salida
• Emulación de software
69
Esquema de la emulación de software
Datos Datos
Hardware Hardware
No funciona Funciona
70
Esquema de la emulación de hardware
Datos
Aplicación
Datos
Interfaz de usuario
Aplicación Programa emulador
Hardware Hardware
No funciona Funciona
71
Emulación de software y hardware
• Razones:
• Para continuar utilizando programas y datos procedentes de
hardware que ya no existe
• Para utilizar programas en un entorno diferente de aquel para el
que fueron creados
• Para ahorrarse migraciones costosas de programas y datos
• Es necesario:
• Disponer del software y/o hardware original para comprobar su
funcionamiento
• Disponer de la máxima documentación posible sobre su
funcionamiento original y entenderlo
• Hacer pruebas con usuarios avanzados para que consideren si la
emulación es suficientemente satisfactoria
72
Tema 8.
Revisión de ejemplos de implementación:
NARA-ERA, Koninklijke Bibliotheek e-Depot,
LOCKSS, Portico, Elsevier, Internet Archive,
Library of Congress, DAITSS, iArxiu, etc.
73
Library of Congress (National Digital Information
and Infrastructure Preservation Program –NDIIPP-)
http://www.digitalpreservation.gov/
74
Cibercementerio de los EUA
http://govinfo.library.unt.edu/
75
National Archives and Records
Administration (NARA).
Electronic Records Archives (ERA)
http://www.archives.gov/era/
• Antecedentes:
• Inicio: 1998
• Requerimientos para un sistema (2002-2003)
• 2 sistemas de prueba con empresas privadas (2004-2005)
• Desarrollo del sistema definitivo; contrato (septiembre 2005) por
7 años con Lockheed Martin Corporation. Totalmente operativo
el 2011. Coste: 308 millones de $.
• Primera fase operativa en junio de 2008.
• 20 junio – septiembre 2009: ingestión de los ficheros de la
administración Bush (77 TB).
• Totalmente operativo en 2011.
• Tecnología: normalización de formatos + migración +
replicación en cloud
76
Proceso de preservación en NARA-ERA
http://www.archives.gov/era/pdf/thibodeau-tnaarmg2005.pdf 77
National Archives and Records Administration
(NARA). Electronic Records Archives (ERA)
http://www.archives.gov/era/pdf/thibodeau-planet-storage-2005.pdf 78
Koninklijke Bibliotheek e-Depot
http://www.kb.nl/dnp/e-depot/e-depot-en.html
• Antecedentes:
• Depot for the Dutch Electronic Publications (DNEP) (1996-1998)
• Networked European Deposit Libraries (NEDLIB) (1998-2000)
• Contrato con IBM: DNEP-i (1999-2002)
• E-Depot (diciembre 2002 - )
• Tecnología: modelo centralizado e integral
• Convenios con: Elsevier, Kluwer Academic, BioMed Central,
Blackwell Publishing, Oxford University Press, Taylor and Francis,
Sage, Springer, etc.
79
LOCKKS
(“Lots of Copies Keep Stuff Safe”)
http://www.lockss.org/
80
Portico
http://www.portico.org/
81
“Multiple approach”:
la preservación por Elsevier
• Interna
• Koninklijke Bibliotheek e-Depot (agosto 2002- )
• Portico (enero 2006- )
• CLOCKSS (?)
82
La preservación interna en Elsevier
“[Elsevier] has also spent some $300 million on the company's engine
room, a kind of military command center in a bunker in Dayton, Ohio,
that has 2 petabytes of data storage (50,000 times the storage of the
average household Dell PC) to ensure that a million customers a day
get their responses within four seconds. The back-up power supply
includes six diesel engine generators with ten days of fuel.”
(http://www.forbes.com/global/2002/1111/044_print.html)
83
Preservación del web
84
National Archives of Australia
http://www.naa.gov.au/
85
DAITSS: Dark Archive in the Sunshine State
Florida Digital Archive
http://daitss.fcla.edu/
86
http://www.metaarchive.org/
MetaArchive Cooperative
Biblioteques digitals de 16 universitats
87
Multi-State Preservation Consortium (MSPC)
Arxius de 10 estats
88
http://www.hathitrust.org/
HathiTrust
Biblioteques digitals de 52 universitats
89
iArxiu
http://www.catcert.cat/web/cat/1_4_9_iArxiu.jsp
90
Tema 9.
Tendencias de la investigación y del mercado.
91
Modelos de preservación
92
Sistemas comerciales de preservación
93
Sistemas no comerciales de preservación
94
Las enseñanzas del 11-S
• Como mínimo se han de
replicar los datos y esta
replicación debe estar en
lugares separados
geográficamente.
• Ejemplos:
• Internet Archive
• Bibliothèque nationale de
France (Système SPAR)
• Physikalisch-Technische
Bundesanstalt (PTB)
• iRODS
95
Proyecto de replicación de las universidades
catalanas
UAB UB
UPC UPF
96
Tendencias
• El sector privado se está moviendo.
• El sector público se está moviendo.
• La preservación digital será un gran negocio.
• También se podrá preservar con software libre.
• No todas las empresas e instituciones podrán ejercer la
preservación digital de forma autónoma.
• La preservación digital se puede externalizar (ej.: Portico, iArxiu).
98
Escenarios para trabajar la preservación
1. Espacio personal
2. Documentación interna de la biblioteca
3. Proyectos de digitalización
4. Repositorios institucionales
5. Biblioteca digital
99
Escenario 1:
El espacio personal
• Antivirus.
• Control de passwords y de acceso al equipo.
• Usar un número reducido de programas.
• Controlar los nombres de ficheros y sus extensiones.
• Controlar las versiones y los duplicados.
• Usar una tabla de clasificación de los documentos.
• Tener un sistema de copias de seguridad automático y periódico. Si
es posible, almacenar las copias fuera del propio despacho.
• Etiquetar y fechar todas las copias.
100
Escenario 2:
Documentación interna de la biblioteca
• Normalizar los programas y formatos de ficheros permitidos.
• Normalizar los documentos.
• Almacenar la documentación corporativa en servidores e intranets,
no en ordenadores personales, CDs o llaves USB.
• Consolidación de ficheros y versiones.
• Regulación de la documentación a conservar.
• Sistema centralizado de copias de seguridad, con almacenamiento
externo.
101
Escenario 3:
Proyectos de digitalización
• Regulación de todos los procedimientos.
• Aplicación de unas únicas cláusulas técnicas.
• Aplicación sistemática de controles de calidad, incluyendo controles
de integridad de ficheros.
• Documentación de los proyectos.
• Sistematización de los sistemas de nombres de ficheros y de
directorios.
• Almacenamiento de metadatos técnicos extraídos en el momento
de la digitalización o de la ingestión en el servidor central.
• Conservación centralizada de los ficheros máster.
• Copia redundante de los ficheros máster, con almacenamiento
externo.
102
Escenario 4:
Repositorios institucionales
• Regulación de todos los procedimientos.
• Regulación de los derechos de preservación digital sobre los
documentos.
• Regulación de los formatos admisibles.
• Control de formatos en la ingestión.
• Almacenaje de metadatos técnicos.
• Copias sistemáticas externas.
• Creación de procedimientos de contingencia ante desastres.
• Auditoría interna/externa de seguridad.
103
Escenario 5:
Biblioteca digital
• Regulación de todos los procedimientos.
• Normalización de un único sistema de nombres de ficheros,
versiones, punteros, identificadores, etc.
• Control centralizado de todos los ficheros máster y de los
metadatos técnicos.
• Consolidación de los metadatos técnicos y, si es pertinente, de los
descriptivos, en un único esquema.
• Separación de las funciones de consulta de las de preservación.
• Automatización de los procedimientos de importación, exportación,
etc.
• Mantenimiento de un servidor/sistema de preservación.
• Duplicación externa del servidor/sistema de preservación.
104