Está en la página 1de 104

Curso de preservación digital

Miquel Térmens Graells


termens@ub.edu
Universidad de Barcelona
Departamento de Biblioteconomía y Documentación

València, mayo 2011

1
Programa
1. ¿Qué es realmente la preservación digital?
2. La viabilidad de la preservación digital: aspectos legales, organizativos y
económicos
3. Características de las necesidades de preservación en archivos,
bibliotecas, museos, administración pública y empresas privadas
4. La problemática técnica
5. El modelo OAIS
6. Estándares (METS, PREMIS…) y herramientas informáticas disponibles
7. Estrategias técnicas de preservación: refreshing, emulación y migración
8. Revisión de ejemplos de implementación: NARA-ERA, Koninklijke
Bibliotheek e-Depot, LOCKSS, Portico, Elsevier, Internet Archive, Library
of Congress, National Archives of Australia, DAITSS, MetaArchive
Cooperative, Multi-State Preservation Consortium (MSPC), iArxiu, etc.
9. Tendencias de la investigación y del mercado
10. Discusión de los elementos para el diseño y la aplicación de estrategias
de preservación
2
Tema 1.
¿Qué es realmente la preservación digital?

3
Un ejemplo: NASA Viking

• 1975. La NASA envía las sondas Viking


1 y Viking 2 con la misión de analizar la
superficie de Marte.
• 1999. El profesor Joseph Miller, de la
University of Southern California, desea
investigar de nuevo los datos:
• Las cintas magnéticas originales son
legibles.
• Los formatos no se entienden.
• Se deben teclear los datos de nuevo a
partir de versiones impresas.
• 2001. El reestudio de los datos permite
encontrar “trazas” de vida.

Más información: http://spaceflightnow.com/news/n0107/29marslife/ 4


Etapas en la preservación

1. Archivar los documentos digitales


 gestión documental

2. Preservar el bit stream


3. Garantizar el acceso a largo plazo

5
La preservación digital: metas

La garantía de acceso permanente requiere que:

1. Los datos se mantendrán en el depósito sin sufrir


daños, sin perderse o sin ser alterados de forma
malintencionada.
2. Los datos podrán ser localizados y entregados al
usuario.
3. Los datos podrán ser interpretados y comprendidos
por el usuario.
4. Las metas 1, 2 y 3 serán realizables a largo plazo.

6
La missió què vol dir preservar per sempre?

http://www.archives.gov/era/pdf/thibodeau-planet-storage-2005.pdf 7
La preservación digital: integridad y autenticidad

Se debe garantizar la integridad y la autenticidad del


recurso preservado a lo largo de los años:
• asegurar que el documento es lo que pretende ser;
• asegurar que sus datos no han sido cambiados.

8
Negligencia benigna

La falta de uso ha contribuido a la preservación de muchos


documentos tradicionales. Por ejemplo: un manuscrito
olvidado dentro de un baúl durante 50 años.

Pero la negligencia NO es benigna en el caso de los


recursos digitales: un disquete olvidado en un cajón
durante 50 años probablemente no se podría leer.

9
Rotura de principios tradicionales de
conservación
• No negligencia benigna.
• No preservación basada en las condiciones
ambientales.
• No se conserva para cualquier usuario futuro.
 Comunidad designada
• No se conserva la integridad externa del documento.
 Propiedades significativas

10
Tema 2.
La viabilidad de la preservación digital:
aspectos legales, organizativos y
económicos

11
La preservación integral

• Aspectos legales
• Aspectos económicos
• Aspectos organizativos
• Aspectos técnicos

12
Aspectos legales

• Derecho a recopilar y archivar los recursos.


• Derecho a poner a disposición del público el material.
• Derecho a modificar los recursos archivados para
garantizar su preservación.

Responsabilidad del archivo si el material contiene:


• Datos confidenciales.
• Datos personales.
• Material problemático: difamatorio, plagiado, erróneo…

13
Durabilidad económica
(economic sustainability)

Minimización de los costes actuales:


• prever los cambios externos que tengan un impacto
sobre las operaciones para permitir respuestas ágiles,
adecuadas y asequibles;
• automatizar los procesos para reducir las
intervenciones humanas que representan un alto
porcentaje de los costes actuales.

14
Los recursos humanos implicados

• Administradores institucionales
• Autores o creadores de los recursos
• Gabinetes legales
• Servicios informáticos
• Bibliotecarios y archiveros

15
Sistemas de auditoría y certificación
de preservación
• DRAMBORA - Reino Unido, Países Bajos
• Nestor - Alemania
• TRAC - Estados Unidos

Sistemas de gestión de riesgos


en ingeniería del software
• Real Decreto 3/2010, de 8 de enero, por el que se regula
el Esquema Nacional de Seguridad en el ámbito de la
Administración Electrónica (BOE del 29 de enero)

16
Tema 3.
Características de las necesidades de
preservación en archivos, bibliotecas,
museos, administración pública y empresas
privadas

17
Actores ante la preservación digital

• Archivos
• Bibliotecas cultural heritage

• Museos
• Administración pública (ley 11/2007)
• Empresas privadas (facturación; inspección tributaria)
• Datos de investigación (datasets) (movimiento open data)

18
Características por sectores

Archivos Administración Empresas Datos de


Sector Bibliotecas Museos
(históricos) pública privadas investigación

Volumen X X X XX
Autenticidad X X X X
Complejidad
X X X X
técnica

Interoperabilidad X X X

Alto uso X X X

Derechos X X X X

Confidencialidad X X X

Interrelación
Principal de los ficheros Acceso y Arte Autenticidad,
Coste Almacenamiento
problema (el expediente preservación electrónico seguridad
electrónico)

19
Tema 4.
La problemática técnica

20
¿Conservar?

http://www-03.ibm.com/ibm/history/exhibits/storage/storage_intro.html 21
¿Conservar?

"U.S. Army Photo", number 163-12-62. Left: Patsy Simmers, holding ENIAC board Next: Mrs. Gail
Taylor, holding EDVAC board Next: Mrs. Milly Beck, holding ORDVAC board Right: Mrs. Norma Stec,
holding BRLESC-I board. http://ftp.arl.mil/ftp/historic-computers/ 22
¿Conservar?

Two women wiring the right side of the ENIAC with a new program, in the "pre- von Neumann"
days. "U.S. Army Photo" from the archives of the ARL Technical Library. Standing: Ester
Gerston Crouching: Gloria Ruth Gorden. http://ftp.arl.mil/ftp/historic-computers/ 23
¿Conservar?

Fotografia: Arthur Lavine (Chase Manhattan Bank). http://www.computer-museum.org/


24
¿Conservar?

Fotografia: Arthur Lavine (Chase Manhattan Bank). http://www.computer-museum.org/


25
¿Conservar?

IBM 3850 Mass Storage System (1974)


26
Los media y la preservación

Texto
Incremento de la
complejidad y
Fotografías del peligro de
desaparición

Audio

Vídeo

Películas cinematográficas Incremento de las


gastos para su
preservación
Materiales compuestos

http://www.archives.gov/preservation/conferences/papers-2003/puglia.html 27
¿Qué es una película digital?

Mary Ide: The Universal Preservation Format. 1997. http://info.wgbh.org/upf/pdfs/upf_saa.pdf 28


¿Qué se ha de preservar? (1)

http://www.archives.gov/era/pdf/thibodeau-tnaarmg2005.pdf 29
¿Qué se ha de preservar? (2)

• Las partes técnicas:


• Un bit stream
• El formato lógico del bit stream
• La funcionalidad necesaria para descodificar el
formato lógico del bit stream
• Otras:
• Información intelectual
• Información jurídica
• Información de gestión
• …

30
La preservación integral, a nivel técnico
Datos
Documentación y conocimiento

Documento web.html

Aplicación Internet Explorer 6.0


del sistema

Interfaz de usuario
Windows XP
Sistema operativo

Hardware PC Pentium IV

Red Internet

31
= 1 PB

Web 1M E-mails Archivo de Revistas


Google libros-e 1 día programas BBC Elsevier
32
El crecimiento de
los datos

The Large Synoptic Survey Telescope (LSST). 2014, Cerro Pachón, Chile
• Covering the entire sky visible from its site every three days, its rapid-fire, 3.2 billion
pixel camera will take more than 15 terabytes (15 million million bytes) of image data
each night, opening a movie-like window on objects that change or move. Over its
ten-year mission, LSST will produce the greatest movie ever made.
• Within minutes of acquiring each image, the LSST data system will compare the new
data with previous images and issue world-wide alerts on thousands of objects which
have varied in brightness or position on the sky. The wide-field images and catalog
data will then be stored in a 60 petabyte (60 thousand million million byte) database.
• Over ten years, LSST will automatically identify and characterize more than 20 billion
astronomical sources of light.
http://www.lsst.org/files/docs/400_news_0509.pdf 33
Las problemáticas según el tipo de material

• Fotografías
• Mapas
• Web
• Revistas científicas
• Libros
• Objetos compuestos
• Documentación administrativa

• Materiales de digitalización retrospectiva


• Materiales “born digital”

34
Tema 5.
El modelo OAIS

35
Funciones de un sistema de preservación.
El modelo OAIS

1. Ingestión
2. Almacenaje
3. Gestión de datos
4. Acceso
5. Preservación
6. Servicios comunes

36
Modelo OAIS

Reference Model for an Open Archival Information System (OAIS). Blue Book. Issue 1. January
2002. Washington DC, NASA. Management Council of the Consultative Committee for Space Data
Systems (CCSDS), January 2002. p. 4-1. Norma ISO 14721:2003.
http://public.ccsds.org/publications/archive/650x0b1.pdf 37
http://www.nationalarchives.gov.uk/pronom/default.htm
38
Unified Digital Formats Registry (UDFR)
http://www.udfr.org/

• Idea lanzada el año 2002 por Harvard University


• En abril de 2009 se acordó crear un registro mundial que
substituyera Pronom y otras iniciativas similares
• Formado por: Library and Archives Canada, The National Archives
UK, Harvard University Library, The British Library, University of
Illinois at Urbana-Champaign, Georgia Institute of Technology,
National Archives and Records Administration (NARA), Koninklijke
Bibliotheek, Library of Congress, California Digital Library, German
National Library, National Library of New Zealand
• Inicio previsto: enero 2012

39
Tema 6.
Estándares y herramientas informáticas
disponibles

40
Tema 6.a
Estándares

41
La organización intelectual
Los modelos de datos:
• Entidades intelectuales
• Representaciones
• Objetos
• Ficheros
• Bitstream

Los modelos técnicos de preservación digital:


• OAIS

42
Entidades intelectuales y objetos
Ejemplo 1: fotografía en 2 formatos

Intellectual
Entity:
“Picture of my
dog”

Representation1: Representation 2:
TIFF version JPEG2000 version

File 1: dog.TIFF File 2: dog.JP2

Bitstream 1:
Embedded
metadata

Font: PREMIS Tutorial. Library of Congress, 2007. http://www.loc.gov/premis/premis-LC-pt1.ppt 43


Entidades intelectuales y objetos
Ejemplo 2: libro en 2 formatos

Intellectual Entity
Da Vinci Code by
Dan Brown

Representation 1
Representation 2
Page image
ebook version
version

File 1: File 2: File N: File N+1: File 1:


page1.tiff page2.tiff pageN.tiff METS.xml book.lit

Font: PREMIS Tutorial. Library of Congress, 2007. http://www.loc.gov/premis/premis-LC-pt1.ppt 44


Los esquemas de metadatos

• Descripción intelectual MODS

• Descripción informática
• Informaciones de gestión: derechos, etc. METS
• Información de empaquetado

• Información técnica de preservación PREMIS

45
MODS
(Metadata Object Description Standard)
http://www.loc.gov/standards/mods/

• Estándar de la Library of Congress.


• Sistema de metadatos para la descripción catalográfica
de objetos digitales, presentado en forma de esquema
XML.
• Se puede considerar como una simplificación de MARC21
para descripciones digitales.

46
Metadata Encoding and Transmission Standard
(METS)
http://www.loc.gov/standards/mets/

• “The METS schema is a standard for encoding descriptive,


administrative, and structural metadata regarding objects within a
digital library, expressed using the XML schema language”

• Ejemplos en: http://www.loc.gov/standards/mets/mets-examples.html


47
PREMIS
http://www.loc.gov/standards/premis/

• Proyecto de OCLC y RLG en 2000-2005. Ahora mantenido por


Library of Congress
• Catálogo de metadatos de preservación
• Presentación bajo la forma de un diccionario de datos y un
esquema XML. Se puede mapear dentro de METS

48
Exemplo de metadatos: fotografía de Louis
Amstrong

• MODS (datos bibliográficos):


http://lcweb2.loc.gov/diglib/ihas/loc.natlib.
gottlieb.09601/mods.xml
• METS (descripción del objeto):
http://lcweb2.loc.gov/diglib/ihas/loc.natlib.
gottlieb.09601/mets.xml
• PREMIS (metadatos de preservación):
http://www.loc.gov/standards/premis/Obj
ectsExercise-LC.pdf

Visualización: http://lcweb2.loc.gov/diglib/ihas/loc.natlib.gottlieb.09601/default.html

49
Tema 6.b
Herramientas

50
Herramientas para el control de los ficheros

Pronom LC Format Descriptions


Registros de formatos

Global Digital Format Registry


(GDFR)

XENA (XML Electronic Normalising


DROID (Digital Record
Programas para la for Archives)
Object Identification)
identificación de
formatos

JHOVE (JSTOR/Harvard Object


Validation Environment)
TrID
51
DROID (Digital Record Object Identification)
http://droid.sourceforge.net/

• Software desarrollado por The National Archives (UK)


para automatizar e identificar los formatos de los
ficheros, siguiendo las informaciones del registro
PRONOM.
• Open source: programado en Java.
• Versión 5.0 (mayo 2010)

52
JHOVE

• JSTOR/Harvard Object Validation Environment


http://hul.harvard.edu/jhove/
• Software licencia GNU
• Versión 1.5. Diciembre 2009
• Funciones:
• Identificación del formato; de qué formato se trata
• Validación del formato; nivel de cumplimiento
• Caracterización del formato; características

53
XENA
http://xena.sourceforge.net/

• Programa de código libre para normalizar ficheros


• Creado por National Archives of Australia
• Basado en Java
• Versión 5.0 (diciembre 2009)

54
Bag-It
https://confluence.ucop.edu/display/Curation/BagIt

• Desarrollado por la Libray of Congress i la


California Digital Library
• Versión 0.96 (junio 2009)
• Funciones: programa para “enpaquetar” ficheros
(o colecciones de ficheros) que se transferieren
de una institución a otra.

55
Tema 7.
Estrategias técnicas de preservación:
refreshing, emulación y migración

56
Técnicas de preservación

 Refreshing (recopia): cambio de soporte físico


 ej.: de disquete a CD
 Migración: cambio de formato técnico
 ej.: de Lotus 123 a Excel
 Emulación: recreación del entorno de software y
hardware
 ej.: emulación de un Commodore 64 bajo PC Windows

 Toda migración implica un riesgo de pérdida de


información o de funcionalidades.
 La preservación absoluta quizás es imposible o no es
económicament eviable.

57
Tema 7.a
Refreshing

58
Cambio de soportes

59
Refreshing: recopia de los ficheros

 Problemas:
 Probabilidad de estar copiando datos ya deteriorados.
 Una duda: ¿de qué servirán los datos en el futuro si no
dispondrán del software y el hardware para
ejecutarlos?
 Necesidades:
 Se ha de seguir un protocolo estricto y documentado.
 Se han de separar los soportes de trabajo de los de
archivo o seguridad.
 Se han de utilizar soportes de calidad.
 Se han de conservar los soportes en óptimas
condiciones de temperatura, humedad, etc.
60
Refreshing: más allá de la recopia

• Conservar también: metadatos, manuales...


• Controlar las alteraciones de bits:
• Checksum (MD5, SHA-1, SHA-2...)
• Actualizar la firma electrónica
• ¿Bits con qué grado de fiabilidad? RAID 1…?

61
Tema 7.b
Migración

62
Migración de formatos
A lo largo de los años los ficheros preservados deberán ser migrados a nuevos
formatos.

Visicalc Lotus 1-2-3 Microsoft Excel Open Office Calc ?


1978 1983 1984 2000

63
Migración de formatos

 Razones:
 Ir a versiones más recientes
 Ir a formatos no propietarios  a estándares
 Ir a formatos no compilados  en formato texto (ASCII)
 Ir a estándares industriales "de facto"  Word, Excel...
 Abandonar formatos sin soporte o de fabricantes ya no existentes
 Hardware: deja de funcionar el viejo y/o el nuevo obliga a la
migración
 Requerimientos legales:
 Caducan las licencias
 Ahora se necesitan licencias

64
Normalización de formatos

Los sistemas de preservación digital sólo tendrán capacidad para almacenar


un número reducido de formatos. El resto de formatos se deberán normalizar.

65
Migración de formatos
• Necesidades:
 Realizar exhaustivas pruebas previas.
 Documentar la migración
 Seguir procesos de migración ya probados o
consolidados.
 Ser conscientes de la relación entre coste de la
migración y resultados.
 Aplicar un nuevo plan de preservación a la información
migrada: copias de seguridad, refreshing... [empieza un
nuevo ciclo]
 Recordar que existen migraciones de datos que se
pueden realizar forma automática desde las nuevas
versiones de los programas (ej.: Word).
 No olvidar el hardware.
66
Riesgos asociados con el formato
de los ficheros de datos

• Pérdida de funcionalidades primarias


• Cambios en las funcionalidades que afectan a su uso por
medio de una interfaz (imágenes estáticas o no,
multiresolución, visibilidad desde el web...)
• Seguridad: pérdida de marcas de agua (watermarking) o
de señales criptográficas de seguridad (DRM…)
• Pérdida de contexto e integridad
• Uso desde el software y hardware
• Enlaces a ficheros de metadatos u otros asociados
• Cambios en las necesidades de almacenamiento

67
Tema 7.c
Emulación

68
Emulación de software y hardware

• Tipos:
• Emulación de hardware. Normalmente se hace mediante una
emulación del sistema operativo y de los dispositivos de entrada y
salida
• Emulación de software

• Un emulador nunca es igual al original:


• Puede ser mejor (ej.: más rápido, más colores...)
• Puede ser peor (ej.: menos funcionalidades...)
• La valoración de su calidad depende del uso que se le quiera dar

69
Esquema de la emulación de software

Datos Datos

Aplicación Aplicación emuladora

Interfaz de usuario Interfaz de usuario

Sistema operativo Sistema operativo

Hardware Hardware

Sistema original Sistema creado


(emulado) (emulador)

No funciona Funciona

70
Esquema de la emulación de hardware
Datos

Aplicación
Datos
Interfaz de usuario
Aplicación Programa emulador

Interfaz de usuario Interfaz de usuario

Sistema operativo Sistema operativo

Hardware Hardware

Sistema original Sistema creado


(emulado) (emulador)

No funciona Funciona

71
Emulación de software y hardware
• Razones:
• Para continuar utilizando programas y datos procedentes de
hardware que ya no existe
• Para utilizar programas en un entorno diferente de aquel para el
que fueron creados
• Para ahorrarse migraciones costosas de programas y datos
• Es necesario:
• Disponer del software y/o hardware original para comprobar su
funcionamiento
• Disponer de la máxima documentación posible sobre su
funcionamiento original y entenderlo
• Hacer pruebas con usuarios avanzados para que consideren si la
emulación es suficientemente satisfactoria

72
Tema 8.
Revisión de ejemplos de implementación:
NARA-ERA, Koninklijke Bibliotheek e-Depot,
LOCKSS, Portico, Elsevier, Internet Archive,
Library of Congress, DAITSS, iArxiu, etc.

73
Library of Congress (National Digital Information
and Infrastructure Preservation Program –NDIIPP-)
http://www.digitalpreservation.gov/

• National Digital Information and Infrastructure


Preservation Program –NDIIPP- (diciembre 2000)
• La preservación digital es un reto nacional que sólo se puede
afrontar de forma colaborativa.
• Es necesaria la colaboración de los sectores público y privado.
• La LC es la coordinadora de este esfuerzo.
• Promueven la investigación y el establecimiento de alianzas.

74
Cibercementerio de los EUA
http://govinfo.library.unt.edu/

75
National Archives and Records
Administration (NARA).
Electronic Records Archives (ERA)
http://www.archives.gov/era/

• Antecedentes:
• Inicio: 1998
• Requerimientos para un sistema (2002-2003)
• 2 sistemas de prueba con empresas privadas (2004-2005)
• Desarrollo del sistema definitivo; contrato (septiembre 2005) por
7 años con Lockheed Martin Corporation. Totalmente operativo
el 2011. Coste: 308 millones de $.
• Primera fase operativa en junio de 2008.
• 20 junio – septiembre 2009: ingestión de los ficheros de la
administración Bush (77 TB).
• Totalmente operativo en 2011.
• Tecnología: normalización de formatos + migración +
replicación en cloud
76
Proceso de preservación en NARA-ERA

http://www.archives.gov/era/pdf/thibodeau-tnaarmg2005.pdf 77
National Archives and Records Administration
(NARA). Electronic Records Archives (ERA)

http://www.archives.gov/era/pdf/thibodeau-planet-storage-2005.pdf 78
Koninklijke Bibliotheek e-Depot
http://www.kb.nl/dnp/e-depot/e-depot-en.html

• Antecedentes:
• Depot for the Dutch Electronic Publications (DNEP) (1996-1998)
• Networked European Deposit Libraries (NEDLIB) (1998-2000)
• Contrato con IBM: DNEP-i (1999-2002)
• E-Depot (diciembre 2002 - )
• Tecnología: modelo centralizado e integral
• Convenios con: Elsevier, Kluwer Academic, BioMed Central,
Blackwell Publishing, Oxford University Press, Taylor and Francis,
Sage, Springer, etc.

79
LOCKKS
(“Lots of Copies Keep Stuff Safe”)
http://www.lockss.org/

• Inicio: Stanford University (2001)


• Auto sostenido por las bibliotecas asociadas
• Tecnología:
• Preservación compartida y descentralizada. Multiplicación de
copias “peer to peer”
• Subproyectos:
• CLOCKSS. http://www.clockss.org/

80
Portico
http://www.portico.org/

• Iniciativa privada. Financiado por los usuarios (editores y


bibliotecas)
• Antecedentes: experiencia de JSTOR
• Tecnología: modelo centralizado; migración
• Ingestión normalizada con Journal Archiving and Interchange DTD
• Operativo desde: enero 2006
• Convenios con 88 editores y 655 bibliotecas (enero 2010)

81
“Multiple approach”:
la preservación por Elsevier

• Interna
• Koninklijke Bibliotheek e-Depot (agosto 2002- )
• Portico (enero 2006- )
• CLOCKSS (?)

82
La preservación interna en Elsevier

“The hardware is a hosting system in Dayton, located in a bunker that


is tornado, earthquake and aircraft impact-proof. Daily incremental
backups, and weekly complete backups are taken. Off-site copies of
backups, and extensive recovery procedures are in place. Migration to
a new type of hardware format takes place on every new version
release.” (http://www.icsti.org/forum/46/Joep_Verheggen.ppt)

“[Elsevier] has also spent some $300 million on the company's engine
room, a kind of military command center in a bunker in Dayton, Ohio,
that has 2 petabytes of data storage (50,000 times the storage of the
average household Dell PC) to ensure that a million customers a day
get their responses within four seconds. The back-up power supply
includes six diesel engine generators with ten days of fuel.”
(http://www.forbes.com/global/2002/1111/044_print.html)

83
Preservación del web

• International Internet Preservation Consortium.


http://netpreserve.org

• Internet Archive. http://www.archive.org

• PADICAT (Biblioteca de Catalunya).


http://www.padicat.cat

84
National Archives of Australia
http://www.naa.gov.au/

• Proyecto iniciado el año 2001


• Objetivo: preservar “la esencia” de los documentos
• Técnica: migración a formatos “seguros” (normalización)
• Desarrollo de herramientas de software libre (XENA…)
• Sistema de preservación (Digital Preservation Recorder) dividido en 3
elementos no interconectados por razones de seguridad:
• Cuarentena
• Preservación
• Almacenaje

85
DAITSS: Dark Archive in the Sunshine State
Florida Digital Archive
http://daitss.fcla.edu/

• “Dark” archive, sin acceso público


• Implementa el modelo OAIS, con: ingesta,
almacenamiento, gestión de datos,
normalización i migración de formatos
• Programa open source: Linux, Java, MySQL

86
http://www.metaarchive.org/
MetaArchive Cooperative
Biblioteques digitals de 16 universitats

87
Multi-State Preservation Consortium (MSPC)
Arxius de 10 estats

88
http://www.hathitrust.org/
HathiTrust
Biblioteques digitals de 52 universitats

89
iArxiu
http://www.catcert.cat/web/cat/1_4_9_iArxiu.jsp

• Outsourcing de la preservación digital para


administraciones públicas de Cataluña
• “Dark” archive, sin acceso público
• Implementa totalmente el modelo OAIS
• Sistemas similares:
• Alemania: Archisafe
• Australia: Digital Preservation Recorder (DPR)
• EUA: iRODS

90
Tema 9.
Tendencias de la investigación y del mercado.

91
Modelos de preservación

• Preservación • Preservación centralizada


descentralizada • Modelo centrado en las
• Modelo centrado en los datos herramientas (aplicaciones
informáticas)
• Ejemplo: LOCKSS
• Ejemplo: Portico

• Archivo abierto • Archivo cerrado (“black


• Acceso + preservación archive”)
• Ejemplo: Internet Archive • La preservación es una
función separada
• Ejemplo: DAITSS

92
Sistemas comerciales de preservación

US National Archives and


Koninklijke The National National Library
Records Administration
Bibliotheek e-Depot Archives UK of New Zealand
(NARA)

IBM Tessella ExLibris

Digital Information Safety Deposit


Rosetta
Archiving System (DIAS) Box (SDB)

93
Sistemas no comerciales de preservación

Digital Preservation Planets Suite Caspar


Software Platform
(DPSP)

Mayo 2010 Junio 2010 Septiembre 2010

94
Las enseñanzas del 11-S
• Como mínimo se han de
replicar los datos y esta
replicación debe estar en
lugares separados
geográficamente.

• Idealmente también se han


de replicar los sistemas
hardware y software

• Ejemplos:
• Internet Archive
• Bibliothèque nationale de
France (Système SPAR)
• Physikalisch-Technische
Bundesanstalt (PTB)
• iRODS
95
Proyecto de replicación de las universidades
catalanas

• Proyecto encabezado por UAB, con UB, UPC y UPF.


• Tecnología: red peer-to-peer de servidores replicados.
• Coste: 1 M €, el año 2007.
• Situación actual: parado por falta de financiación.

UAB UB

UPC UPF

96
Tendencias
• El sector privado se está moviendo.
• El sector público se está moviendo.
• La preservación digital será un gran negocio.
• También se podrá preservar con software libre.
• No todas las empresas e instituciones podrán ejercer la
preservación digital de forma autónoma.
• La preservación digital se puede externalizar (ej.: Portico, iArxiu).

• Los procedimientos son esenciales.


• Es importante la normalización de los formatos.
• En pleno debate: ¿cuáles son las esencias o las características
básicas a preservar en los documentos?
• Las soluciones técnicas están llegando. El modelo OAIS y el
estándar METS son básicos.
• Se deben automatizar las transferencias de documentos.
• Se deben automatizar los procesos de ingestión.
97
Tema 10.
Discusión de los elementos para el diseño y la
aplicación de estrategias de preservación

98
Escenarios para trabajar la preservación

1. Espacio personal
2. Documentación interna de la biblioteca
3. Proyectos de digitalización
4. Repositorios institucionales
5. Biblioteca digital

99
Escenario 1:
El espacio personal
• Antivirus.
• Control de passwords y de acceso al equipo.
• Usar un número reducido de programas.
• Controlar los nombres de ficheros y sus extensiones.
• Controlar las versiones y los duplicados.
• Usar una tabla de clasificación de los documentos.
• Tener un sistema de copias de seguridad automático y periódico. Si
es posible, almacenar las copias fuera del propio despacho.
• Etiquetar y fechar todas las copias.

100
Escenario 2:
Documentación interna de la biblioteca
• Normalizar los programas y formatos de ficheros permitidos.
• Normalizar los documentos.
• Almacenar la documentación corporativa en servidores e intranets,
no en ordenadores personales, CDs o llaves USB.
• Consolidación de ficheros y versiones.
• Regulación de la documentación a conservar.
• Sistema centralizado de copias de seguridad, con almacenamiento
externo.

101
Escenario 3:
Proyectos de digitalización
• Regulación de todos los procedimientos.
• Aplicación de unas únicas cláusulas técnicas.
• Aplicación sistemática de controles de calidad, incluyendo controles
de integridad de ficheros.
• Documentación de los proyectos.
• Sistematización de los sistemas de nombres de ficheros y de
directorios.
• Almacenamiento de metadatos técnicos extraídos en el momento
de la digitalización o de la ingestión en el servidor central.
• Conservación centralizada de los ficheros máster.
• Copia redundante de los ficheros máster, con almacenamiento
externo.

102
Escenario 4:
Repositorios institucionales
• Regulación de todos los procedimientos.
• Regulación de los derechos de preservación digital sobre los
documentos.
• Regulación de los formatos admisibles.
• Control de formatos en la ingestión.
• Almacenaje de metadatos técnicos.
• Copias sistemáticas externas.
• Creación de procedimientos de contingencia ante desastres.
• Auditoría interna/externa de seguridad.

103
Escenario 5:
Biblioteca digital
• Regulación de todos los procedimientos.
• Normalización de un único sistema de nombres de ficheros,
versiones, punteros, identificadores, etc.
• Control centralizado de todos los ficheros máster y de los
metadatos técnicos.
• Consolidación de los metadatos técnicos y, si es pertinente, de los
descriptivos, en un único esquema.
• Separación de las funciones de consulta de las de preservación.
• Automatización de los procedimientos de importación, exportación,
etc.
• Mantenimiento de un servidor/sistema de preservación.
• Duplicación externa del servidor/sistema de preservación.

104

También podría gustarte