Está en la página 1de 11

Informe tcnico

ARQUITECTURA DE INVULNERABILIDAD DE
DATOS DE EMC DATA DOMAIN: MEJORA DE
LA CAPACIDAD DE RECUPERACIN Y LA
INTEGRIDAD DE LOS DATOS
Anlisis detallado

Resumen
Ningn mecanismo por s mismo es suficiente para garantizar la
integridad de los datos en un sistema de almacenamiento.
La capacidad de recuperacin de datos solo se puede garantizar
mediante la cooperacin de una gran cantidad de mecanismos que
establecen lneas de defensa contra todos los orgenes de errores.
A diferencia de los sistemas de almacenamiento de uso general, los
sistemas de almacenamiento con deduplicacin EMC Data Domain
han sido diseados especficamente como el almacenamiento del
ltimo recurso. Los sistemas de almacenamiento Data Domain
priorizan la recuperacin sobre todo lo dems, con funcionalidades
de proteccin de la integridad de los datos incorporadas mediante la
arquitectura de invulnerabilidad de datos de EMC Data Domain. Este
informe tcnico se centra en cuatro elementos clave de la
arquitectura de invulnerabilidad de datos de Data Domain, que, al
combinarse, proporcionan los mayores niveles de capacidad de
recuperacin e integridad de datos del sector:

Verificacin de punto a punto

Evasin y contencin de fallas

Deteccin de fallas y reparacin continuas

Capacidad de recuperacin del sistema de archivos

abril 2013

Copyright 2013 EMC Corporation. Todos los derechos


reservados.
EMC considera que la informacin de esta publicacin es
precisa en el momento de su publicacin. La informacin est
sujeta a cambios sin previo aviso.
LA INFORMACIN DE ESTA PUBLICACIN SE PROPORCIONA
TAL CUAL. EMC Corporation no se hace responsable ni ofrece
garanta de ningn tipo con respecto a la informacin de esta
publicacin y especficamente renuncia a toda garanta
implcita de comerciabilidad o capacidad para un propsito
determinado.
El uso, la copia y la distribucin de cualquier software de EMC
descrito en esta publicacin requieren una licencia de software
correspondiente.
Para obtener una lista actualizada de nombres de productos de
EMC, consulte las marcas comerciales de EMC Corporation en
EMC.com (visite el sitio web de su pas correspondiente).
Nmero de referencia h7219-3.1

Arquitectura de invulnerabilidad de datos de EMC Data Domain

Tabla de contenidos
Resumen ejecutivo ........................................................................................... 4
Integridad de datos del sistema de almacenamiento ....................................................... 4

Introduccin .................................................................................................... 4
Pblico al que va dirigido ............................................................................................... 4

Arquitectura de invulnerabilidad de datos de Data Domain.................................... 5


Verificacin de punto a punto ......................................................................................... 5
Evasin y contencin de fallas ........................................................................................ 6
Los datos nuevos nunca sobrescriben los datos correctos............................................ 6
Menos estructuras de datos complejas ....................................................................... 7
NVRAM para un reinicio seguro y rpido ...................................................................... 7
Sin escrituras parciales de fracciones ......................................................................... 7
Deteccin de fallas y reparacin continuas ...................................................................... 8
RAID 6: Proteccin contra fallas de dos discos y correccin de errores de lectura ........... 8
Deteccin y correccin de errores de manera inmediata ............................................... 9
Limpieza para impedir que se daen los datos ............................................................ 9
Capacidad de recuperacin del sistema de archivos ........................................................ 9
Formato de datos autodescriptivo para garantizar la capacidad de recuperacin de
los metadatos .......................................................................................................... 10
La comprobacin de FS, en caso de ser necesaria, es rpida ...................................... 10

Conclusiones .................................................................................................. 11

Arquitectura de invulnerabilidad de datos de EMC Data Domain

Resumen ejecutivo
Integridad de datos del sistema de almacenamiento
Detrs de todo el valor agregado, los sistemas de almacenamiento especializados se
basan en componentes informticos de propsito general y herramientas de
software que pueden presentar errores. Algunas fallas tienen un impacto visible e
inmediato, por ejemplo, la falla total de una unidad de disco. Otras fallas son sutiles
y estn ocultas, por ejemplo, un error de software que provoca daos latentes en el
sistema de archivos que solo se descubren en el momento de la lectura. Para
garantizar la integridad de los datos ante dichas fallas, los mejores sistemas de
almacenamiento incluyen varias comprobaciones de integridad de los datos y,
generalmente, cuentan con caractersticas optimizadas de rendimiento y
disponibilidad del sistema, no de invulnerabilidad de los datos. En el anlisis final,
suponen que todos los respaldos se efectan, y presentan disyuntivas relacionadas
con el diseo que priorizan la velocidad con respecto a la capacidad de
recuperacin de datos garantizada. Por ejemplo, ningn sistema de archivos de
almacenamiento primario de uso general lee datos desde el disco para garantizar
que se hayan almacenado correctamente, pues, si lo hiciera, afectara el
rendimiento. Sin embargo, los datos no se pueden considerar invulnerables si no se
almacenan correctamente en primer lugar. En el respaldo a disco especialmente
diseado, se debe priorizar la invulnerabilidad de los datos sobre el rendimiento e
incluso sobre la disponibilidad. A menos que el inters se centre en la integridad de
los datos, los datos de respaldo y de archivo estn expuestos a riesgo. Si los datos
estn expuestos a riesgo, cuando se pierde la copia primaria de los datos, la
recuperacin tambin se encuentra expuesta a riesgo. La mayora de los dispositivos
de respaldo especialmente diseados son simplemente sistemas de
almacenamiento primario creados a partir de discos ms econmicos. Por lo tanto,
heredan la filosofa de diseo de sus antecesores de almacenamiento primario. Si
bien se etiquetan como dispositivos de respaldo especialmente diseados, sus
diseos destacan el rendimiento a costa de la invulnerabilidad de los datos.

Introduccin
Este informe tcnico se centra en cuatro elementos clave de la arquitectura de
invulnerabilidad de datos de EMC Data Domain, que, al combinarse, proporcionan
los mayores niveles del sector en cuanto a capacidad de recuperacin e integridad
de los datos.

Pblico al que va dirigido


Este informe tcnico est orientado a los clientes de EMC, los consultores tcnicos,
los partners y los miembros de la comunidad de servicios profesionales de EMC y de
partners que estn interesados en obtener ms informacin acerca de la
arquitectura de invulnerabilidad de datos de Data Domain.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

Arquitectura de invulnerabilidad de datos de Data Domain


Los sistemas de almacenamiento con deduplicacin Data Domain representan un
claro desprendimiento del pensamiento de diseo convencional de sistemas de
almacenamiento y presentan una premisa radical: qu ocurrira si la capacidad de
recuperacin y la integridad de los datos fueran el objetivo ms importante? Si uno
imaginara un departamento de TI sin cintas, tendra que imaginar un
almacenamiento en disco sumamente resistente y protector. Los sistemas
Data Domain se han diseado desde el principio como almacenamiento de ltimo
recurso. El sistema operativo Data Domain (DD OS) est especialmente diseado
para la invulnerabilidad de los datos. Existen cuatro reas de enfoque crticas:

Verificacin de punto a punto

Evasin y contencin de fallas

Deteccin de fallas y reparacin continuas

Capacidad de recuperacin del sistema de archivos

Incluso con este modelo, resulta importante recordar que DD OS es simplemente tan
bueno como los datos que recibe. Puede realizar una prueba de punto a punto de
los datos que recibe dentro de los lmites del sistema, pero DD OS no puede saber si
esos datos estuvieron protegidos durante cada paso de la red en su trayecto hacia el
sistema. Si se produce un error en la red que ocasiona daos en los datos o si los
datos se daan en el almacenamiento primario, DD OS no puede repararlos.
Recomendamos probar la recuperacin a nivel de aplicaciones de manera peridica.

Verificacin de punto a punto


Dado que todos los componentes
de un sistema de almacenamiento
pueden introducir errores, la
manera ms sencilla de garantizar
la integridad de los datos es
realizar una prueba de punto a
punto. La verificacin de punto a
punto implica leer los datos
despus de que se escriben y
compararlos con los que se
enviaron al disco, con lo que se
comprueba que es posible
acceder a ellos en el disco por
medio del sistema de archivos y Figura 1. La comprobacin de punto a punto
que no estn daados. Cuando verifica todos los datos y metadatos del sistema
DD OS recibe una solicitud de de archivos.
escritura del software de respaldo,
computa una gran suma de verificacin para los datos. Luego, el sistema almacena
los datos exclusivos y los vuelve a leer para validarlos, con lo que se corrigen de
inmediato los errores de I/O. Debido a que los datos se validan despus de la
escritura a disco y antes de su liberacin de la memoria/NVRAM, la correccin de los
errores de I/O no requiere un reinicio del trabajo de respaldo.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

La verificacin de punto a punto confirma que los datos sean correctos y puedan
recuperarse desde cualquier nivel del sistema. Si existen problemas en cualquier
parte del trayecto (por ejemplo, si se han perdido algunos datos en la unidad), se
detectarn. Los errores tambin se pueden corregir mediante un proceso de
autorreparacin, como se describe en la seccin siguiente. Los sistemas de
almacenamiento primario convencionales no pueden realizar este tipo de
verificaciones tan exigentes. No obstante, los dispositivos de respaldo
especialmente diseados las requieren. La gran reduccin de datos que se logra
mediante Data Domain Global Compression disminuye la cantidad de datos que
se deben verificar y posibilita la realizacin de estas verificaciones.

Evasin y contencin de fallas


El prximo paso para la proteccin de
datos es garantizar que los datos que
se confirmaron como correctos lo
sigan siendo. Paradjicamente, el
mayor riesgo en cuanto a la integridad
del sistema de archivos son los
errores de software del sistema de
archivos en el momento de escribir
datos nuevos. Solo las nuevas
escrituras
pueden
sobrescribir
accidentalmente los datos existentes
y solo las nuevas actualizaciones a Figura 2. Los datos nuevos nunca ponen en
metadatos del sistema de archivos riesgo los datos antiguos. El log contenedor
pueden
daar
las
estructuras de datos nunca sobrescribe ni actualiza los
existentes. Dado que el objetivo datos existentes. Los datos nuevos siempre
principal del sistema de archivos de se escriben en nuevos contenedores (en rojo).
Las referencias y los contenedores antiguos
Data Domain es proteger los datos, su permanecen en su lugar y estn seguros,
diseo brinda proteccin incluso incluso, ante errores de software o hardware que
contra errores de su propio software puedan producirse durante el almacenamiento
que puedan poner en riesgo los de los respaldos nuevos.
respaldos existentes. Esto se logra por
medio de una combinacin de simplicidad en el diseo (que, en primer lugar, reduce
la posibilidad de errores), adems de diversas caractersticas de contencin de
errores que dificultan la posibilidad de que los errores de software daen los datos
existentes. Los sistemas Data Domain cuentan con un sistema de archivos
especializado y estructurado en logs que ofrece cuatro beneficios importantes.
Los datos nuevos nunca sobrescriben los datos correctos
A diferencia de los sistemas de archivos tradicionales, que, generalmente,
sobrescriben bloques cuando se modifican datos, los sistemas Data Domain solo
escriben en bloques nuevos. Esto asla cualquier sobrescritura incorrecta (un tipo de
problema de error de software) a los datos de respaldo ms nuevos exclusivamente.
Las versiones anteriores permanecen seguras.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

Menos estructuras de datos complejas


En un sistema de archivos tradicional, existen muchas estructuras de datos
(por ejemplo, conteos de referencia y mapas de bits de bloques libres) que admiten
actualizaciones de bloques muy rpidas. En una aplicacin de respaldo, la carga de
trabajo consta principalmente de escrituras secuenciales ms simples de datos
nuevos, lo que implica que se requieren menos estructuras de datos para admitirla.
En tanto el sistema pueda rastrear el encabezado del log, las escrituras nuevas no
afectarn a los datos antiguos. Esta simplicidad de diseo reduce
considerablemente las posibilidades de errores de software que pueden ocasionar
daos en los datos.
NVRAM para un reinicio seguro y rpido
El sistema incluye un buffer de escritura RAM no voltil en el cual coloca todos los
datos que an no estn protegidos en el disco. El sistema de archivos aprovecha la
seguridad de este buffer de escritura a fin de implementar una funcionalidad de
reinicio rpida y segura. El sistema de archivos utiliza muchas comprobaciones
lgicas internas y de integridad de estructura de datos. Si se detecta un problema en
una de estas comprobaciones, el sistema de archivos se reinicia. Las
comprobaciones y los reinicios proporcionan deteccin y recuperacin tempranas de
errores que ocasionan daos en los datos. Cuando se reinicia, el sistema de
archivos de Data Domain verifica la integridad de los datos en el buffer NVRAM antes
de colocarlos en un sistema de archivos, lo que impide la prdida de datos como
consecuencia del reinicio. Dado que NVRAM es un dispositivo de hardware
independiente, protege los datos contra errores que pueden daar los datos en la
memoria RAM. Dado que la memoria RAM no es voltil, tambin brinda proteccin
contra fallas elctricas. Si bien NVRAM es importante para garantizar el xito de los
nuevos respaldos, el sistema de archivos garantiza la integridad de los respaldos
antiguos, incluso ante una falla de NVRAM.
Sin escrituras parciales de fracciones
Los arreglos de discos de almacenamiento primario tradicionales, ya sean RAID 1,
RAID 3, RAID 4, RAID 5 o RAID 6, pueden perder datos antiguos si, durante una
operacin de escritura, se produce una falla elctrica que genera errores en un
disco. Esto se debe a que la reconstruccin de disco depende de que todos los
bloques en una fraccin RAID sean consistentes, pero, durante una escritura de
bloque, existe una ventana de transicin durante la cual la fraccin no es
consistente, por lo que la reconstruccin de la fraccin puede fallar y los datos
antiguos del disco con errores se pueden perder. Los sistemas de almacenamiento
empresariales ofrecen proteccin al respecto con fuentes de alimentacin sin
interrupcin o NVRAM. Sin embargo, si estas fallan debido a una interrupcin
prolongada de energa, se pueden perder los datos antiguos y puede fallar cualquier
intento de recuperacin. Por este motivo, los sistemas Data Domain nunca
actualizan solamente un bloque en una fraccin. De acuerdo con la poltica de no
sobrescritura, todas las nuevas escrituras apuntan a nuevas fracciones RAID, y esas
fracciones se escriben en su totalidad1. La verificacin con posterioridad a la
escritura garantiza la consistencia de la nueva fraccin. Las escrituras nuevas no
1

El producto de gateway, que utiliza RAID externo, no puede garantizar la ausencia de escrituras parciales de
fracciones.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

ponen en riesgo los respaldos existentes. Los sistemas Data Domain estn
diseados para minimizar la cantidad de errores estndar en el sistema de
almacenamiento. Si se producen errores ms desafiantes, se tarda menos tiempo en
encontrarlos, corregirlos y notificar al operador.

Deteccin de fallas y reparacin continuas


Independientemente de las medidas de seguridad de software que se apliquen, los
productos de hardware informtico presentan errores ocasionales por naturaleza.
De manera ms visible en un sistema de almacenamiento, se pueden producir
errores en las unidades de disco, pero tambin se pueden producir otros errores
ms localizados o transitorios. Es posible que un bloque de disco individual no se
pueda leer o que haya una alternacin de bits en la interconexin de
almacenamiento o en el bus interno del sistema. Por este motivo, DD OS emplea
niveles adicionales de proteccin de datos para detectar fallas y recuperarse de
ellas inmediatamente a fin de garantizar los resultados ptimos en las operaciones
de restauracin de datos.
RAID 6: Proteccin contra fallas de dos discos y correccin de errores de lectura
RAID 6 constituye la base de la funcionalidad de deteccin y reparacin continuas de
fallas que ofrece Data Domain. Su eficiente arquitectura de paridad doble ofrece
ventajas significativas con respecto a
las arquitecturas convencionales, que
incluyen enfoques de paridad nica
RAID 1 (espejeado), RAID 3, RAID 4 o
RAID 5. RAID 6:

Brinda proteccin contra fallas


en dos discos.

Brinda proteccin contra errores


de lectura de disco durante el
proceso de reconstruccin.

Brinda proteccin contra la


extraccin del disco incorrecto
por parte del operador.

Garantiza la consistencia de las


fracciones RAID incluso durante
una falla en la energa sin
depender de NVRAM ni UPS.

Verifica la integridad de los


datos y la consistencia de las
fracciones despus de las
escrituras.

Figura 3. La funcionalidad de deteccin


y reparacin continuas de fallas brinda
proteccin contra fallas en el sistema
de almacenamiento. El sistema vuelve a
comprobar peridicamente la integridad de
las fracciones RAID y el log contenedor, y utiliza
la redundancia del sistema RAID para
solucionar cualquier falla que se produzca.
En cada una de las lecturas, se vuelve a verificar
la integridad de los datos y se repara cualquier
error de manera inmediata.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

Cada bandeja incluye una unidad de repuesto global, que reemplaza


automticamente una unidad fallida en cualquier parte del sistema Data Domain.
Cuando EMC reemplaza una unidad fallida reemplazable en caliente, esa unidad se
convierte en la nueva unidad de repuesto global. En comparacin, una vez que un
solo disco deja de funcionar en los otros enfoques de RAID, cualquier otro error de
disco simultneo genera la prdida de datos. Todo sistema de almacenamiento del
ltimo recurso debe incluir el nivel de proteccin adicional que ofrece RAID 6.
Deteccin y correccin de errores de manera inmediata
Para garantizar que todos los datos devueltos al usuario durante una restauracin
sean correctos, el sistema de archivos Data Domain almacena todas sus estructuras
de datos en disco en bloques de datos con formato. Estos se identifican
automticamente y se incluyen en una slida suma de verificacin. En cada lectura
desde el disco, el sistema, primero, verifica que el bloque ledo sea el esperado.
Luego, utiliza la suma de verificacin para comprobar la integridad de los datos.
Si se detecta un problema, le solicita a RAID 6 que utilice su nivel adicional de
redundancia para corregir el error en los datos. Debido a que las fracciones RAID
nunca se actualizan de manera parcial, se garantiza su consistencia, al igual que la
capacidad de reparar un error en el momento de su descubrimiento.
Limpieza para impedir que se daen los datos
La deteccin de errores de manera instantnea funciona correctamente con los
datos que se leen, pero no enfrenta los problemas con los datos que no se leen
durante semanas o meses antes de que se requieran para una recuperacin.
Por este motivo, los sistemas Data Domain vuelven a verificar activamente la
integridad de todos los datos mediante un proceso continuo que se ejecuta en
segundo plano. Este proceso de limpieza encuentra y repara de manera inteligente
los errores en el disco antes de que puedan representar un problema. Mediante la
deteccin y la correccin de errores de manera inmediata y la limpieza constante de
datos de RAID 6, la mayora de los errores generados en la unidad de disco y en el
sistema informtico se pueden aislar y solucionar sin provocar ningn impacto en el
funcionamiento del sistema y sin riesgos para los datos.

Capacidad de recuperacin del sistema de archivos


Si bien se realizan muchos esfuerzos para garantizar que no haya problemas en el
sistema de archivos, la arquitectura de invulnerabilidad de datos prev que, al ser
creado por el hombre, cualquier sistema puede presentar un problema en cierto
momento. Por lo tanto, incluye caractersticas para reconstruir metadatos perdidos o
daados del sistema de archivos y, asimismo, herramientas de comprobacin del
sistema de archivos que pueden volver a poner en lnea un sistema con problemas
de manera segura y rpida.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

Formato de datos autodescriptivo para


garantizar la capacidad de recuperacin
de los metadatos
Las estructuras de metadatos, como los
ndices que aceleran el acceso, se
pueden reconstruir a partir de los datos
en disco. Todos los datos se almacenan
junto con los metadatos que los
describen. Si una estructura de
metadatos se daa de algn modo,
existen dos niveles de capacidad de
recuperacin. En primer lugar, se crea un
Figura 4. Los datos se escriben en un
snapshot de los metadatos del sistema de
formato autodescriptivo. Si es necesario,
archivos cada cierta cantidad de horas y
se puede volver a crear el sistema de
archivos mediante el anlisis del log y la
la capacidad de recuperacin puede
reconstruccin a partir de los metadatos
depender de esta copia de punto en el
almacenados con los datos.
tiempo. En segundo lugar, se pueden
analizar los datos en el disco y se puede
reconstruir la estructura de metadatos. Estas funcionalidades hacen posible la
capacidad de recuperacin incluso si se produce el peor de los daos en el sistema
de archivos o en sus metadatos.
La comprobacin de FS, en caso de ser necesaria, es rpida
En un sistema de archivos tradicional, no se comprueba constantemente la
consistencia en lnea. Los sistemas Data Domain realizan la comprobacin mediante
una verificacin inicial despus de cada respaldo a fin de garantizar la consistencia
de todas las escrituras nuevas. El tamao utilizable de un sistema de archivos
tradicional, generalmente, est limitado por el tiempo que llevara recuperar el
sistema de archivos si se produjera algn tipo de dao. Imagine la ejecucin de fsck
en un sistema de archivos tradicional con ms de 80 TB de datos. El motivo por el
cual el proceso de comprobacin puede tardar tanto es que el sistema de archivos
debe distinguir dnde se ubican los bloques libres para que las escrituras nuevas no
sobrescriban los datos existentes de manera accidental. Por lo general, esto implica
la comprobacin de todas las referencias para reconstruir los mapas de bloques
libres y los conteos de referencia. Cuantos ms datos haya en el sistema, ms
tiempo tardar este proceso. Por el contrario, dado que el sistema de archivos Data
Domain nunca sobrescribe datos antiguos ni tiene que reconstruir mapas de
bloques ni conteos de referencia, solo debe verificar dnde se ubica el encabezado
del log para volver a poner el sistema en lnea de manera segura a fin de restaurar
los datos crticos.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

10

Conclusiones
Ningn mecanismo por s mismo es suficiente para garantizar la integridad de los
datos en un sistema de almacenamiento. La capacidad de recuperacin de datos
solo se puede garantizar mediante la cooperacin de una gran cantidad de
mecanismos que establecen lneas de defensa contra todos los orgenes de errores.
A diferencia de los sistemas de almacenamiento tradicionales, cuyo propsito ha
cambiado del almacenamiento primario a la proteccin de datos, los sistemas
Data Domain estn diseados desde el principio especficamente para el
almacenamiento de datos de ltimo recurso. La innovadora arquitectura de
invulnerabilidad de datos brinda la mejor proteccin del sector contra los problemas
de integridad de datos. La verificacin avanzada garantiza que los nuevos datos de
respaldo y de archivo se almacenen correctamente. La arquitectura estructurada en
logs y sin sobrescritura del sistema de archivos de Data Domain, junto con la
reiteracin de escrituras de fracciones completas, garantiza que los datos antiguos
siempre estn seguros, incluso, ante posibles errores de software ocasionados por
los nuevos datos. Mientras tanto, una implementacin simple y slida reduce la
posibilidad de que se produzcan errores de software en primer lugar.
Los mecanismos mencionados brindan proteccin contra problemas durante el
almacenamiento de datos de respaldo y de archivo, pero las fallas en el
almacenamiento en s tambin ponen en peligro la capacidad de recuperacin de los
datos. Por este motivo, la arquitectura de invulnerabilidad de datos incluye una
implementacin propietaria de RAID 6 que brinda proteccin contra fallas en hasta
dos discos; puede reconstruir un disco con errores, incluso si se presenta un error de
lectura de datos; y corrige errores de manera instantnea durante la lectura.
Asimismo, incluye un proceso de limpieza constante que busca y repara de manera
activa las fallas latentes antes de que se conviertan en un problema.
La ltima medida de defensa es la funcin de recuperacin del sistema de archivos
Data Domain. El formato de datos autodescriptivo permite reconstruir los datos de
archivo, incluso si se daan o se pierden varias estructuras de metadatos. Adems,
la comprobacin y la reparacin rpidas del sistema de archivos logran que hasta un
sistema con docenas de terabytes de datos no est offline durante mucho tiempo en
caso de que se presente algn tipo de problema.
Los sistemas Data Domain son la nica solucin que incluye esta atencin incesante
a la integridad de los datos, lo que le permite tener la mxima confianza en su
capacidad de recuperacin.

Arquitectura de invulnerabilidad de datos de EMC Data Domain

11

También podría gustarte