Tolerancia de Fallas

Universidad Central de Venezuela Facultad de Ciencias Escuela de Computacin
Las Redes y su Tolerancia a Fallas

Dr. Eddy Carrasco, Lic. Rogert Guevara
Diciembre 2001
INTRODUCCION Si Ud. va en su vehculo por una autopista y repentinamente siente que una llanta se ha daado, lo primero que hace es ir a buscar la llanta de repuesto en la maleta de su vehculo, de encontrarla en buen estado, simplemente sustituye y continua con su viaje, pero que ocurre si no tiene, simplemente se queda accidentado hasta que alguien acuda ayudarlo. En el mundo de las redes corporativas de datos ocurren hechos similares, suceden fallas en muchos de sus componentes de Hardware o de Software, y si no estamos preparados, nos quedamos sin servicio por un tiempo indeterminado. Tolerancia a Fallas (TF) en una red significa que si ocurre una falla en uno de sus componentes, esta continuar funcionando, y se logra aplicando un conjunto de recomendaciones que se explicarn posteriormente y deben ser aplicados a cada uno de los componentes de la red. Las redes son Flexibles a Fallas, cuando al ocurrir alguna, esta deja de funcionar, pero al sustituir el componente afectado se restaura el servicio en un corto tiempo. Es bueno aclarar tambin que el hecho de seleccionar un componente con ciertas caractersticas de Tolerancia a Fallas (eje. Un Servidor), muchos creen que ya la Red es Tolerante a Fallas, esto no es as, y es el objeto de este artculo, establecer criterios y explicar a los diseadores de redes como deben ser aplicados para disponer de un sistema Tolerante a Fallas.
RECOMENDACIONES GENERALES PARA EL DISEO CORPORATIVAS DE DATOS TOLERANTES A FALLAS. Para el diseo de una Red TF recomendamos cuatro pasos: Determinar la Ubicacin Geogrfica. Seleccionar el Medio de Transmisin. Determinar la Topologa de la Red.
DE
REDES
Aplicar recomendaciones de TF a cada uno de los componentes de la Red.
Copyright @ Dr. E Carrasco, Lic. R. Guevara
Diciembre 2001
APLICAR RECOMENDACIONES COMPONENTES DE LA RED
DE
TF
CADA
UNO
DE
LOS
Los principios que guan el diseo de redes tolerantes a fallas son simples. Disear e implantar todos los componentes ms importantes de la red en una forma totalmente redundante con la capacidad de continuar funcionando si un evento de falla se produce. Use componentes flexibles a fallas para minimizar componentes que fallen. Distribuya los nodos de la red en una topologa matricial, con recuperacin robusta. Esto es que no haya dependencia sobre un solo punto de enlace omitido. No est sujeto a fallas nicas de enlaces. Insistir sobre los estndares de la Industria para todos los componentes, de manera de asegurar proteccin a la inversin y la interoperabilidad. Documente todos los componentes, as ellos podrn ser administrados. Establezca una buena Organizacin de Servicios en Tecnologa de la Informacin. Establezca esquemas de Monitoreo y Administracin pro activa de la red. Disear relacionando Costos vs. Importancia de los Servicios para la Organizacin.
ANALISIS DE LOS COMPONENTES DE UNA RED TOLERANTE A FALLAS.

Workstation (WS) TF. Si no se aplica un control riguroso a las WS, el nmero de estas, con fallas en los servicios se incrementar. Se recomienda llevar estadsticas desde el punto de vista de usuarios, como: Tiempos de respuesta, reinicio de carga del sistema, errores de lnea, errores de protocolos, etc. Beneficio del Control de las WS. Muchas fallas de las WS estn relacionadas con el Software que se instala en ellas o en la red. Sobre todo debe evaluarse y medir el impacto del
Diciembre 2001
software antes de permitir su uso en la red. Por eso se deben certificar los procesos y evaluarlos antes de implantarlos. Medidas preventivas para las WS Se pueden tomar medidas que permitan evitar que ocurran interrupciones en los servicios de las WS, esto es proveer los mismos niveles de redundancia de los componentes crticos como los servidores. Estos niveles de redundancia de los componentes de hardware internos de las WS pueden ser muy costosos para instalarlos y mantenerlos, pero si las WS y el usuario son de alta importancia y manejan procesos crticos de la empresa, no hay dudas en considerarlos y realizarlos. Recomendaciones: Debe disponer de UPS para todas las WS que considere crticas para la organizacin. Instale doble tarjeta de interfaz a la red en cada una de las WS y conectarlas en segmentos separados de la red. No se debe desestimar lo obvio, un ratn o un teclado se pueden daar y generar inconvenientes innecesarios. Se debe tener un Kit de componentes de las WS. No se debe utilizar el disquete como medio de respaldo, hay que emplear esquemas reales de respaldo. Realice el respaldo y verifquelo. Certifique estos respaldos. Analice los Logs con los resultados de los respaldos. Se deben establecer normas para que los usuarios conozcan bien sus responsabilidades, esto incluye modificar el sistema operativo de las WS para que el usuario no pueda introducir software no certificado y que no guarde su data bajo esquemas de Respaldo no establecidos.
Segmento 1
Segmento 2
Tape Backup UPS
Figura Nro. 1. Recomendaciones para WS crticas.
Diciembre 2001
Cableado Tolerante a Fallas. El cableado de una red es el componente inicial que se instala y representa el medio fundamental de comunicacin. Muchas veces este componente no es considerado importante, pero un mal cableado tiene un impacto negativo en los tiempos de respuesta y en el rendimiento total de la red. Para aplicar Tolerancia a Fallas a los componentes del cableado se deben tomar en cuenta o considerar las siguientes recomendaciones: o Exija a los proveedores 15 aos de garanta para las instalaciones que realicen. Esto es que sus cables, conectores y paneles cumplan con los estndares de la industria. o Se debe certificar el cableado, esta es la partida de nacimiento de la red. o Evite utilizar cables coaxiales en lo posible, hay que emplear estndares, usar par trenzado de Categora 5 o superior, para voz y data. o Hay que utilizar ms cable del que se necesita, para prever el movimiento de alguna WS en el rea de trabajo. o Se debe colocar ms puntos de los requeridos, como recomendacin un 10% ms. o Mantenga la norma, mover personas y sus equipos y no el cableado de la red. o Se recomienda tener dos segmentos por piso y distribuir las estaciones de trabajo por segmento, sin embargo bajo el concepto de Tolerancia a Fallas deben estar todas las estaciones conectadas a ambos segmentos. o Se debe etiquetar cada uno de los cables, tanto en las estaciones de trabajo como en los paneles de control. o Se debe tener una lista de todos los puntos que estn conectados a cada uno de los segmentos de la red. o Utilizar aplicaciones que manejen Bases de Datos y mantener actualizada la informacin. o Si tiene ms de un cuarto de cableado emplee fibra para la conexin de estos (segmentos). o Insista en las realizaciones de las certificaciones pasivas y activas de todo el cableado instalado. o Informar a otros donde est ubicado el departamento de cableado, como al departamento de electricidad y todos los procedimientos que se deben seguir al respecto.
Diciembre 2001
Figura Nro. 2. Cableado Estructurado y sus componentes.
Concentradores (Hubs) o Switches Tolerantes a Fallas Los Concentradores o Switches son elementos activos fundamentales para asegurar una red Tolerante a Fallas, estos previenen los impactos a la red, debido a errores producidos por otros dispositivos y es considerado la primera lnea de defensa de la red. Todos los Concentradores o Switches deben ser administrables e idealmente soportar Administracin Remota (RMON) y ser flexibles a fallas [Wals96]. Ser administrables significa que cada uno de sus puertos puede ser configurado, monitoreado, habilitado o deshabilitado por un administrador de la red, desde una aplicacin de administracin de Concentradores o Switches [Delm99]. Hay tres maneras de minimizar la falla de un Concentrador o Switche, las cuales son: Asignar a cada estacin de trabajo (WS) dos tarjetas de comunicacin. Estas se deben conectar a segmentos diferentes y estos hay que conectarlos a Concentradores o Switches diferentes.
Diciembre 2001
Seleccionar aquellos Concentradores o Switches con un nmero de puertos que puedan cubrir el nmero de conexiones de otro Concentrador o Switche. Un ejemplo es seleccionar dos Concentradores o Switches de 32 puertos cada uno, pero solo se deben utilizar 16 puertos en cada uno, en caso de falla de alguno, el otro puede cubrir las 16 conexiones del otro, evitando dejar sin servicio a los usuarios. Distribuir a los usuarios de un departamento a travs de varios Concentradores o Switches.
Hub-1 Hub-2
Workstation-2 LAN Link-1 LAN Link-2
Workstation-1
Figura Nro. 3. Conexin de WS a segmentos separados y Concentradores o Switches diferentes.
Recomendaciones: Adquirir Concentradores Switches que sean administrables y que soporten RMON. Realizar Inventario de los Concentradores o Switches. Mantener bajo el nmero de conexiones por Concentrador o Switches. Esto minimizar el impacto en caso que un Concentrador o Switch falle. Asignar un UPS al Concentrador o Switch central, mejor si es redundante. Configurar enlaces de fibras redundantes, tales como FDDI, entre el Concentrador o Switch central y los que se encuentran en los cuartos de cableados. En las pruebas de los Concentradores o Switches exija que se incluya el Patch Panel.
Diciembre 2001
Documentar las conexiones entre el Patch Panel y los puertos del Concentrador o Switch y apoyarse en Bases de Datos que puedan ayudar a dar un soporte remoto. Incluir entre sus costos, adquirir aplicaciones que permitan monitorear los Concentradores o Switches. Enrutadores (Routers) Tolerantes a Fallas. Los enrutadores (Routers) significan protocolos y los protocolos necesitan estabilidad para tener xito. Antes de seleccionar un enrutador primero hay que seleccionar el protocolo que se emplear en la red. Es imposible que una red soporte todos los protocolos que existan en la actualidad. Los protocolos tienen diferentes niveles de flexibilidad [Wals96]. Hay que establecer una meta para las redes tolerantes a fallas, y esta es eliminar todos los protocolos que no tengan soporte tcnico y seleccionar aquellos protocolos que sean uniformes para la red local y el Backbone. Deben tenerse presente las siguientes recomendaciones: o Realizar inventarios de los enrutadores. o Usar un subconjunto limitado de tarjetas y facilidades. o Cuando se haga una actualizacin, se debe hacer sobre todos los enrutadores y se debe asegurar que haya soporte para ellos. o Considerar los aspectos de resistentes a fallas, cuando se seleccione un enrutador. o Seleccionar aquellos enrutadores que permitan hacer cambios mayores en su configuracin con Software en lnea y el cambio de Hardware en caliente, sin requerir estar fuera de servicio. Esto incluye cambios en la configuracin del Software, agregando nuevas redes LAN y puertos seriales, cambios en caliente de tarjetas y fuentes de poder. o Seleccionar aquellos enrutadores que tengan Backplane Pasivo y fuentes de poder dual. Las fuentes de poder dual pueden ser usadas cada una como soporte de entrada independiente. Un Backplane Pasivo permite que si una falla ocurre en una tarjeta, esta se pueda cambiar sin inconvenientes. o El enrutador debe estar configurado para que en caso de falla tenga la capacidad de un Arranque automtico y rpido. El enrutador leer en lnea velozmente y deber soportar una jerarqua inteligente de caminos de Arranque. La informacin del Arranque es guardada en varias localizaciones en la red, localmente en memoria flash, sobre un servidor local, o sobre uno o ms servidores distantes. El enrutador seleccionar el Arranque de las alternativas en la jerarqua si uno ha fallado. o Para la conexin de los enrutadores se pueden tener alternativas. Si cada WS tiene dos segmentos al cual conectarse,
Copyright @ Dr. E Carrasco, Lic. R. Guevara Diciembre 2001 8
asegrese que cada uno de esos segmentos se conecta a un enrutador diferente. Una alternativa ms robusta es posible, un segundo enrutador por segmento, permitir que si uno falle el otro se active y tome las actividades del primero. Debemos tener un segundo camino dentro del Backbone, la conectividad no debe ser afectada. o El correcto uso de las estadsticas que pueda proporcionar el monitoreo de los enrutadores, pueden permitir balancear la carga en ellos.
Figura Nro. 4. Enrutadores y Protocolos
Backbones Tolerantes a Fallas. Si se desea lograr una red Tolerante a Fallas se necesita asegurar un Backbone sano, estos deben ser confiables y con capacidad de auto repararse. Los factores que se deben considerar en el diseo de un Backbone local sano son: aislamiento, rutas alternas, y medios robustos (capacidad de auto diagnosticarse y de administrarse) [Wals96]. Aislamiento del medio, significa dedicar un segmento de la red LAN exclusivamente para comunicar los enrutadores. Solamente enrutadores o Switches pueden participar en este enlace. Los medios de segmentos de usuarios finales, servidores y Gateways deben ser excluidos. El Backbone local es la ltima lnea de defensa. Se debe defender de dispositivos y protocolos problemticos.
Diciembre 2001
Figura Nro. 8. Backbone Tolerante a Fallas.
El Backbone local debe tener rutas alternas, como mnimo dos enlaces. Por ejemplo el Backbone local primario puede ser un FDDI, mientras que una Ethernet o un Token Ring puede ser la alternativa. Si uno de los enlaces falla la alternativa provee un respaldo. Los FDDI son soluciones para backbones locales. Cada FDDI es actualmente un doble anillo. An con enlaces robustos entre los enrutadores, un segundo respaldo es aconsejable. Enlaces Tolerantes a Fallas en redes de rea amplia (WAN). La WAN es el lado exterior de la red y forma el Backbone de la organizacin. Se pueden aplicar los mismos principios que se recomendaron para el Backbone local. Esto es despliegue correcto de tablas de rutas (medios robustos), aislamiento del trfico, filtro a los paquetes no deseados y rutas alternas. Si un enlace es importante se debe crear un camino de respaldo. Se puede modelar el problema usando circuitos paralelos redundantes entre nodos importantes. Se deben usar caminos alternos para llegar a la WAN. Estas son preguntas que se deben formular a los Portadores:
Diciembre 2001
10
Soporta y certifican los dispositivos que se desean conectar a la red del Portador?. Como es la recuperacin de los Portadores, cuando haya interrupcin del servicio por parte de ellos?. Como se restablecer la red.Que tipo de rutas usan?. Que facilidades comparten o prestan a otros Portadores?. Asegrese que el Portador Local (LEC) y el Portador Internacional (IEC) estn coordinados para recuperar la red ante cualquier evento de falla.
Figura Nro. 10. Ejemplo de una WAN.
Servidores Tolerantes a Fallas. El primer paso para lograr obtener servidores tolerantes a fallas es hacer que estos servidores sean flexibles a fallas. Algunos proveedores venden servidores flexibles a fallas con niveles bsicos de tolerancia a fallas, tales como memoria ECC, Discos Duros tipo arreglos RAID y mltiples tarjetas de comunicaciones (NIC). Muchos de los proveedores poseen algn tipo de servidor flexible a fallas, sin embargo muy pocos son los que pueden garantizar que no haya falla en alguno de sus componentes. Caractersticas de un Servidor flexible a fallas con niveles bsicos de Tolerancia a Fallas [Coll97]:
Diciembre 2001
11
Arquitectura Backplane Pasivo. En la arquitectura estndar de un Servidor, el Backplane es simplemente el medio que permite que se comuniquen entre si los diferentes componentes de hardware internos del servidor. El Backplane es conocido como la tarjeta madre, este componente contiene circuitos electrnicos como el CPU, la memoria, los slots de expansin y otros componentes. La tarjeta madre generalmente tiene limitaciones de slots para su expansin, lo comn es que tenga seis (6) o menos. Los sistemas de Backplane pasivo remueven todos los circuitos electrnicos de estado slido que residen sobre la tarjeta madre, permitiendo ms slots de expansin (generalmente ms de 20), esto hace al Backplane ms flexible a la falla, pues de ocurrir una es ms fcil identificarla y sustituir el componente de hardware daado. Redundancia y Cambio en Caliente. La energa es la vida de un Servidor, la energa de alta calidad, sin interrupcin es un requerimiento absoluto para sistemas de alta disponibilidad. Por esta razn, realizar inversiones en UPS (uninterruptible power supplies), redundancia de componentes internos de hardware y cambios en calientes estn justificados. Cambios en Caliente (Hot-swappable) significa que los componentes de hardware son diseados para ser reemplazados sin interrumpir o desactivar el servicio del sistema. La Tolerancia a fallas es lograda en muchos casos por la construccin de redundancia en los componentes de hardware en los servidores, pero esto no es suficiente. Es importante definir estrategias de respaldos para los componentes de hardware crticos en el servidor. En especial a los componentes que tienen mecanismos mviles, estos tienen alta probabilidad de fallar. Otros aspectos que contribuyen a tener un servidor tolerante a fallas son: Hardware que tenga sistemas de apagado, encendido y reinicio (Reboot) de modo remoto, para que los administradores de la red puedan darle soporte. Sistemas Operativos que permitan realizar cambios en su configuracin y en la de programas de control de dispositivos sin necesidad de realizar un reinicio de carga del sistema operativo. Una interfaz al UPS para un fcil apagado del equipo (Shutdown) en el evento de que el UPS se quede sin batera.
Diciembre 2001
12
Cambios en caliente de tarjetas controladoras de discos duros tipo arreglos RAID y de otros componentes de hardware. Respaldos y Restauraciones activas. El sistema se podr usar durante estos procesos. Debe permitir administracin remota de eventos. Procedimientos que permitan actuar ante el evento de una falla para restaurar el estado de tolerancia a falla en un servidor. Modelos de Servidores Tolerantes a Fallas. Hay dos modelos de servidores Tolerantes a Fallas, el de perdida de datos y el de perdida de tiempo [Wals96]. El servidor de perdida de datos lo que hace es prevenir la perdida del dato al registrarlo de manera simultnea en varios medios de almacenamiento, para esto se usan discos duros tipos espejo o tipos RAID. Bajo el concepto de redundancia hay que asegurar que el acceso al dispositivo sea a travs de dos adaptadores SCSI. Si tiene un Servidor con disco tolerante a fallas RAID, el tener una tarjeta de control SCSI no es de gran utilidad ya que, s esta falla no podr evitar paralizar el servicio. Si un servidor falla por algn evento, la data puede ser salvada bajo los preceptos anteriores, pero puede ese servidor reiniciar sus actividades en tiempos adecuados. Hay que evaluar para observar el tiempo que toma cargar e iniciar un servidor. El iniciar un servidor siempre toma tiempo, ms an cuando hay discos extras, unidades de respaldo en cinta u otros dispositivos y esto no se resuelve con adicionar ms memoria. Se debe hacer un diseo de recuperacin (reinicio) del servidor en el menor tiempo posible. Mida el tiempo que toma una restauracin total de las actividades del servidor. En caso de que se disponga del tiempo para iniciar un servidor que ha fallado en su funcionamiento, sin crear contratiempos, es una buena alternativa. Si no se dispone del tiempo para reiniciar un servidor, hay dos alternativas para el arranque en caliente: aplicaciones basadas en redundancia y cambios de perifricos. Aplicaciones basadas en redundancia se refieren a diseos de rutinas en las aplicaciones que mantienen la integridad del dato, tales como dos fases de commit (culminar exitosamente) o varios procesos de replicacin de datos. Manejadores de bases de Datos que soporten dos fases de commit, son ms robustos para recuperar y asegurar contra perdida de datos.
Diciembre 2001
13
Conmutar perifricos es usar un conmutador inteligente sobre el SCSI entre el servidor y el dispositivo de RAID. Un ejemplo de conmutacin de perifricos es: Dos dispositivos RAID son conectados a un conmutador compartido por dos servidores. Un servidor es primario, el otro es un respaldo activo. Cada servidor posee uno de los dispositivos RAID. En el servidor standby, una aplicacin background se ejecuta peridicamente monitoreando al primario con pequeas lecturas al disco para asegurar la operacin. Si la prueba falla, espera un perodo configurable para reiniciar. Ante una segunda falla notifica al conmutador para mover la falla del dispositivo RAID al secundario. El secundario monta el volumen e inicia las aplicaciones apropiadas. Discos redundantes con Cambios en Caliente Los discos son componentes crticos del Servidor, son de naturaleza mecnica, tienen movimiento, por lo tanto estn propensos a fallar. Hay una variedad de Discos Redundantes y mtodos de proteccin de fallas, disponibles en los diseos de los Servidores. Hay un rango desde discos espejos hasta arreglos de discos que proveen total tolerancia a falla. El ms popular de los arreglos de discos es llamado el RAID (Redundant Array Independent Disk). Fue desarrollado con dos objetivos: Tolerancia a fallas y capacidad y rendimiento (performance). El sistema RAID incrementa la velocidad de lectura y escritura de la data, ofrece ms proteccin a la data que los sistemas de discos que no son RAID. Sin embargo administrarlos y distribuir la data sobre estos discos puede ser complejo [Vogo99]. Hay varias configuraciones de RAID, denotadas por nmeros, abarcando un espectro de velocidad, flexibilidad y costos [Wong00]: Otras consideraciones para Servidores Tolerantes a Fallas. Ventilacin apropiada y aire acondicionado redundante. Adems de las fallas de los componentes de hardware y las interrupciones de energa, el polvo y el calor son dos grandes enemigos de los componentes de un servidor. El sistema de ventilacin de un servidor Tolerante a Fallas debe tener redundantes ventiladores (al menos tres) que puedan enfriar continuamente. De igual manera en el rea donde tiene ubicado el servidor debe haber sistemas duales de aire acondicionado o dos aires independientes que en caso de falla se activa el de respaldo. Excelente soporte tcnico y de mantenimiento. Es importante obtener hardware de proveedores reconocidos, que den garanta y soporte tcnico en sitio, con visita el mismo da o en las prximas 24
Diciembre 2001
14
horas. Otra rea crtica para el servidor es la rutina de mantenimiento del sistema, esto es mantenimiento preventivo del disco de fragmentacin, etc. Fcil acceso a los componentes interno. Al ver el chasis de un servidor, se observa que su construccin es rgida y no es flexible. En un chasis flexible los componentes de hardware internos pueden sacarse y ajustarse con facilidad, debe ser fcil abrir y remover, sin estorbar a las tarjetas que estn en el Backplane. La fuente de poder y el controlador del disco deben ser accesibles sin abrir l case. Capacidad de Expansin. Para un servidor que tenga Backplane pasivo el nmero de Slots es muy importante, normalmente son diseados para soportar sobre 20 tarjetas. Al adquirir un servidor observe que el chasis soporte cuatro o ms tarjetas controladoras de discos, dos o ms ventiladores y dos o ms fuentes de poder. Sistema de monitoreo propio. De nada sirve tener un servidor con cambios en caliente y componentes redundantes, si no hay manera de saber si uno de esos componentes ha fallado. Los servidores Tolerantes a Fallas deben tener un sistema de monitoreo propio para notificar al administrador de la red (idealmente al sistema operativo) de la falla de un componente. Si una falla es detectada y reportada, inmediatamente un plan de contingencia debe ser ejecutado para reparar la falla con un mnimo impacto sobre la disponibilidad del sistema. Kits de reserva para componentes importantes de hardware. Para esos componentes de cambios en caliente, como los otros componentes del sistema, se debe mantener componentes de reemplazos, para hacer reparaciones rpidas. Un tpico Kit de respaldo debe incluir: Unidad de Disco. Una fuente de Poder. Un ventilador. Una tarjeta de comunicaciones telefnica. Una tarjeta de red. Chips de memoria. Tarjeta de Vdeo. Otros que sean relevantes al servicio.
Finalmente bajo la estrategia de redundancia en el cableado, en concentradores, Switches y en enrutadores no se debe olvidar las siguientes recomendaciones:
Diciembre 2001
15
Todo servidor debe tener mnimo dos tarjetas NIC. Esas interfaces deben conectarse a segmentos diferentes de LAN. Cada uno de estos segmentos se conectar a interfaces separadas en diferentes enrutadores. Sistemas Operativos de red (NOS) Tolerantes a Fallas. Los Sistemas Operativos de Redes (NOS) Flexibles y Tolerantes a Fallas, deben asegurar alta disponibilidad de la informacin y de los servicios que presta, de tres maneras [Micr99]: Manejo uniforme del Hardware y del Software por Sistemas de manejo de Fallas. Proteccin a los programas de los usuarios, entre ellos mismos y el sistema operativo. Proveer mecanismos de recuperacin de datos. Estos NOS deben ser fciles de operar, seguros, mantenibles, fciles de administrar, con interfaces amigables y herramientas para diagnosticar los componentes del servidor. Deben permitir mltiples thread (Unidad despachable de trabajo [Stal01] ) para procesar, lo cual incrementa la eficiencia y la flexibilidad [Micr99]. Caractersticas: errores. Sub-sistema de proteccin y manejo de
Sistema de recuperacin de archivos. Reinicio Automtico. Soporte de unidades de respaldo en cintas. Soporte de UPS. Soporte de Discos Espejos. Soporte de Discos Dplex. Soporte de Discos con Franja (RAID 5).
Sub-Sistema de Proteccin y manejo de Errores. Las aplicaciones de software no siempre operan como se espera, estas pueden fallar. Un NOS debe estar diseado para tolerar esas fallas y asegurar que estas no afecten otros componentes del Sistema Operativo. Para un NOS la primera lnea de defensa es el software de manejo de error de excepcin. Cuando un evento anormal ocurre, el evento es capturado y el procesador o el sistema operativo manejan la excepcin. Este diseo asegura que errores
Diciembre 2001
16
detectados no se les permita influir en el sistema o en los programas de los usuarios. Los subsistemas de proteccin, asignan localizaciones nicas de memoria a los diferentes procesos y aplicaciones, separando as a los programas. De esta manera el NOS asegura que si un programa falla no afectar al ncleo del sistema, evitando el colapso del sistema. Tambin se evita de esta forma que cuando un programa falle no afecte a otros que estn ejecutndose sobre el sistema. Reinicio Automtico. La combinacin del manejo de errores de excepcin y el subsistema de proteccin hace que una falla en el NOS sea extremadamente rara. Sin embargo el NOS debe incluir un reinicio automtico. En el evento de una falla el sistema puede ser configurado para un reinicio automtico. Esta mejora debe proveer un mximo de tiempo para estar disponible. El NOS debe guardar el contenido de la memoria antes del reinicio en un archivo en disco (log), para su posterior anlisis por parte del administrador, para determinar la causa de la falla. Sistema de Recuperacin de Archivos. El NOS debe manejar las fallas de Hardware tales como las de discos y las relacionadas. Debe haber archivos Log en el cual se registren cada una de las operaciones de entrada y salida de una transaccin. Cuando un usuario actualiza un archivo, el servicio de Log, guarda lo anterior y posterior de la informacin para esa transaccin. Rehacer (Redo) es la informacin de cmo se repetir la transaccin. Deshacer (Undo) es como hacer RollBack a la transaccin. Si la transaccin es completada, el archivo actualizado es commit (la transaccin culmin exitosamente). Si la transaccin es incompleta, se hace un RollBack de la transaccin por la informacin del Deshacer (Undo). Si se detecta un error en la transaccin esta tambin es RollBack [Date90]. Deben manejar el Hot-Fixing. Si un error ocurre en un sector, el servicio debe mover la informacin a un sector diferente y marcar el sector original como daado. Este proceso es completado de manera transparente para la aplicacin evitando mensajes como Abort, Retry, o Fail. Soporte de Respaldo en Cinta. Respaldos en cintas es un modo importante de la disponibilidad de la data. Es recomendable que el NOS disponga de herramientas para este proceso, si son grficas mucho mejor. Este respaldo debe permitir:
Diciembre 2001
17
Respaldar y Restaurar archivos locales y remotos. Respaldar y Restaurar por volumen, directorios o archivos individuales, visualizando informacin como el detalle, largo, fecha de modificacin, etc. Tipos de respaldos, normal, copia, incremental, diferencial y programados. Crear procesos para automatizar respaldos repetitivos, esto es programar los respaldos. Control del destino de la restauracin. Pasos de verificacin para asegurar respaldos y restauraciones. Administracin remota de respaldos y dispositivos de respaldo en clientes. UPS (uninterruptible Power Supply). El UPS es una batera conectada a un computador que suple energa para mantener funcionando el sistema en caso de falla de la energa normal. El NOS debe tener un servicio que permita avisar a los usuarios cuando hay falla de energa y debe manejar un apagado automtico del equipo cuando el nivel de batera del UPS este muy baja y cerca de terminar. El NOS debe permitir: Seleccionar el puerto serial donde el UPS esta conectado. Chequea si el Dispositivo del UPS enva una seal s la energa regular falla. Chequea si el Dispositivo del UPS enva una seal de alarma cuando el nivel de batera es bajo. Chequea que el servicio de UPS enve una seal al dispositivo del UPS para apagarlo. Tiene un archivo de comandos que al ejecutarse hacen un Apagado del equipo en un tiempo determinado. Notifica al usuario el tiempo de vida esperada y de carga de una batera. Selecciona el tiempo para mensajes de alertas. Discos RAID. Los sistemas de Discos tolerantes a fallas son estandarizados y categorizados en seis niveles, conocidos como Arreglos Redundantes de Discos
Diciembre 2001
18
Econmicos (RAID), desde el nivel 0 hasta el 5. Cada nivel ofrece varios alcances, flexibilidad y costos.
Referencias.
[Acnc99] [Anix96] [Blac99] [Buch96] [Cahn98] [Carr92] ACNC, Ac&Nc Array Technology, www.acnc.com, 1999. Anixter, Estndar TIA/EIA 568-A, www.anixter.com/techlib/pdf/B3015100.pdf, 1996. Black Uyless, Tecnologas emergentes para redes de computadoras, 2a. ed, Prentice Hall Hispanoamericana, S.A., 1999. Buchanan Robert W., The Art of Testing Network Systems, John Wiley & Son, 1996. Cahn Robert S., Wide Area Network Design, Concepts and Tools for Optimization, Morgan Kaufmann Publishers, Inc, 1998. Carrasco Eddy, Metodologa para el diseo y Ejecucin de Proyectos para la Comunicacin de Sistemas, integracin de Recursos y Automatizacin de Oficinas con Redes de rea, Escuela de Computacin, Facultad de Ciencias, U.C.V., 1992. Carrasco Eddy, Notas de clases dadas por el Prof. Eddy Carrasco, 1999. Cisco, Cisco Networking Academy Program, Tutorial versin en espaol, 1999. Collier Keith, The PC-Based telephony Platform a perspective on Fault Tolerance, Hardware and Operating System choices, www.inter-intelli.com, Abril 1997. Date C.J., Introduccin a los Sistemas de Bases de Datos, Vol I, 5ta ed, Addison-Wesley Iberoamericana, S.A., 1990. Harris Michael P, LAN Hardware / Wiring & Installation, Lesson 8, Exploring Hubs, Bridges, Routers y Switches, http://Viking.Delmar.edu, 1999. Digital, DECNIS Multiprotocol Backbone Routers, www.dnpg.com/dr/npg/dnsfm-mn.html, Enterasys, Smart Switch virtual router cluster, www.enterasys.com, Mayo 2000. Ford Merilee, Lew Kim, Spanier Steve, Stevenson Tim, Tecnologas de interconectividad de redes, Prentice Hall, 1998. Microsoft, Reliability and Fault Tolerance in Windows NT SERVER, www.microsoft.com/NTServer/fileprint/exec/overview/reliability.asp, Septiembre 1999. Musciano Chuck, 0,1,0+1, Raid basics, Part 1, A quick tutorial on how these different Raid configuration work, www.sunworld.com, Abril 2000.
[Carr99] [Cisc00] [Coll97]
[Date90] [Delm99]
[Dnpg00] [Ente00] [Ford98] [Micr99]
[Musc00]
Diciembre 2001
19
Stallings William, Data and computer communications 6th ed., Prentice Hall Inc., 2000, 1996. [Stal01] Stallings William, Operating System, Internal and Design Principles 3 ed., Prentice Hall Inc., 1997. [Swam81] Swamy, M., Graphs, Networks and Algorithms, John Wiley & Son, 1981. [Tane96] Tanenbaum Andrew, Computer networks 3rd ed, Prentice Hall PTR, 1996. [Trul97] Trulove James, LAN Wiring: an illustrated networking guide, McGraw-Hill, 1997 [Vogo99] Vogon International, Raid & Disk Array Recovery, What is Raid?, www.disk-recovery-vogon.com, 1999. [Stal00] [Wals96] Wals Brian, Fault-Tolerance Networking, www.networkcomputing.com, Noviembre 1966. [Wong00] Wong Brian, Raid: What does it mean to me?, www.sunworld.com, 2000.
Diciembre 2001
20

Tolerancia de Fallas

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tolerancia de Fallas

Cargado por

Copyright:

Formatos disponibles

Universidad Central de Venezuela Facultad de Ciencias Escuela de Computacin

Las Redes y su Tolerancia a Fallas

Las Redes y su Tolerancia a Fallas

Aplicar recomendaciones de TF a cada uno de los componentes de la Red.

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

APLICAR RECOMENDACIONES COMPONENTES DE LA RED

ANALISIS DE LOS COMPONENTES DE UNA RED TOLERANTE A FALLAS.

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Tape Backup UPS

Figura Nro. 1. Recomendaciones para WS crticas.

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Figura Nro. 2. Cableado Estructurado y sus componentes.

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Workstation-2 LAN Link-1 LAN Link-2

Figura Nro. 3. Conexin de WS a segmentos separados y Concentradores o Switches diferentes.

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Las Redes y su Tolerancia a Fallas

Figura Nro. 4. Enrutadores y Protocolos

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Figura Nro. 8. Backbone Tolerante a Fallas.

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Figura Nro. 10. Ejemplo de una WAN.

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

[Carr99] [Cisc00] [Coll97]

[Dnpg00] [Ente00] [Ford98] [Micr99]

Copyright @ Dr. E Carrasco, Lic. R. Guevara

Las Redes y su Tolerancia a Fallas

Copyright @ Dr. E Carrasco, Lic. R. Guevara

También podría gustarte