Está en la página 1de 23

10

CAPITULO II

En este capítulo se describe los antecedentes del estudio, las teorías

de diversos autores y las tecnologías de hardware y software actuales en la

que se sustenta la investigación.

MARCO TEORICO

1. ANTECEDENTES DE LA INVESTIGACIÓN

En el ámbito de Alta Disponibilidad son muchos los esfuerzos que se

han realizado, tal es el caso de corporaciones reconocidas mundialmente,

como Cisco, HP y Oracle quienes han realizado estudios en conjunto para

demostrar como se pueden alcanzar mínimos de tiempos de inoperabilidad

contando con componentes de hardware adecuados.

El estudio en cuestión se llevó a cabo en Junio de 1999 en los centros

de tecnología de las Corporaciones Oracle y Cisco. En el mismo se

integraron componentes de hardware y software de los proveedores

involucrados con el fin de demostrar como la tecnología Cisco Local Director y

Hp WebQos mejoraban la disponibilidad y escalabilidad de las aplicaciones

Oracle basadas en la arquitectura computacional de Internet Oracle (ICA).

El ambiente de prueba del estudio incluía a nivel de software Oracle

Application R11, HpWebQos y Hp Unix 11, mientras que el hardware consistió


11

de 2 Cisco Local Director, 2 Servidores de Aplicación (HP9000 D370) y un

Servidor de Base de Datos. El estudio se llevó a cabo contemplando dos

escenarios: El primero, pretendió mediante el apagado del sistema, simular

las fallas en el servidor de aplicaciones, de modo tal que los usuarios

conectados al servidor perdieron su conexión. Luego de reinicializada la

Aplicación Oracle todos los usuarios que habían estado conectados se les

restableció la conexión así como la Aplicación. El segundo escenario, simuló

la falla del Cisco Local Director mediante el apagado del Local Director

principal, en este momento el Local Director Secundario se hizo cargo

permitiendo a los usuarios continuar con su trabajo sin reflejarse perdidas ni

en conexión ni en transacciones.

Como se ve, el estudio permitió demostrar como la tecnología Cisco y

HP proveen una alta disponibilidad para las aplicaciones Oracle, sin importar

la tecnología (Oracle Developer Server ó Oracle Application Server) en la que

se basaron los módulos del mismo. Cisco Local Director es una tecnología

ideal para ser implementada en aplicaciones críticas ya que puede de una

manera automática y transparente colocar los servidores en o fuera de

servicio basándose en el momento de disponibilidad.

Por otra parte, se cuenta con la experiencia del Aeropuerto de

Manchester, el tercer aeropuerto mas importante del Reino Unido, donde

según David Pyke, jefe de proyecto de gestión de sistemas, han logrado

mantener la continuidad de las operaciones empresariales, desde las

aplicaciones de gestión de equipajes hasta la información mas importante


12

sobre vuelos gracias a que cuentan con soluciones independientes, basadas

en la duplicación de los datos, protegiéndolos en tiempo real en un servidor

secundario, lo que les permite la alta disponibilidad aun si su servidor o las

conexiones de la red fallasen, pues en este caso ocurriría un pase automático

de los usuarios al servidor secundario, asegurando así una disponibilidad

ininterrumpida de las aplicaciones.

Adicionalmente para evitar que se produzcan redireccionamientos

innecesarios, en este aeropuerto se han implementado enlaces secundarios

optativos entre el servidor primario y secundario, de forma tal que este ultimo

asuma automáticamente la identidad del servidor primario sin necesidad de

reinicializar o conectarse de nuevo

En lo que respecta a experiencias en el ámbito de la investigación se

cuenta con la experiencia de un proyecto desarrollado en 1999 por José David

Parra y Francisco Rodríguez, aspirantes al titulo de Ingenieros en Sistemas de

la Universidad Nacional de Colombia, denominado Sistema de Distribución y

Administración de procesos en red, cuyo objetivo es desarrollar un sistema

que permita resolver casi cualquier problema que pueda ser dividido y

repartido en unidades atómicas independientes, utilizando una arquitectura de

red donde los computadores estén altamente disponibles y de esta manera

resolver problemas de alta complejidad computacional.

Ahora bien en otro ámbito de ideas y como uno de los antecedentes

mas significativos está el proyecto de geoinformática que actualmente

desarrolla el gobierno de Republica Dominicana, las organizaciones que


13

conforman del Sistema Nacional de Emergencias (SNE) de este país y un con

junto de empresas venezolanas apoyado por el banco mundial, el cual

consiste en un sistema de información espacial que permite predecir bajo

ciertos parámetros prestablecidos la posibilidad de catástrofes naturales

(huracanes, inundaciones entre otras) y las acciones de asistencia a tomar en

el caso de los mismos, dependiendo de las áreas afectadas que se registren.

En este sentido y por ser este país un blanco constante de desastres

naturales, el hecho que el proyecto contemple como aspecto de gran

relevancia la propuesta de un esquema de alta disponibilidad que le asegure

a los usuarios finales del mismo (defensa civil, cruz roja, y grupos militares del

país) contar con la información que aquí se maneja los 365 días del año.

2.BASES TEORICAS

La conceptualización de una propuesta para Sistemas de Alta

Disponibilidad, correlaciona diversas áreas, sobre las que se fundamentan las

bases teóricas del desarrollo del proyecto.

Martin (1999, p.107) define la disponibilidad como “la cantidad o

porcentaje de tiempo que un sistema se encuentra disponible para la

realización de una determinada misión” . Sin embargo si se revisan las

definiciones de otros autores se puede observar como algunos de ellos

consideran que no es solo un problema de aplicación sino del entorno que se

afecta al no contar con el mismo, por ejemplo para Farley, Stearns y Hsu

(1999, p.215) Los sistemas de Alta disponibilidad se deben entender como


14

”sistemas que permiten a las aplicaciones seguir operando a pesar que el

hardware o software falle. Estos sistemas deben protegen a los usuarios de

fallos de software así como de fallas presentes en las unidades de

procesamiento, disco o en los componentes de red”. Por lo que es razonable

pensar que de ser posible eliminar los principales puntos o causas de falla en

cualquiera de estos aspectos (software, hardware, red) mayores serán las

probabilidades de contar con la disponibilidad de los sistemas críticos de la

organización, mas aun si se implantan componentes redundantes o tolerantes

a fallos quienes junto a una alternativa de software puedan entrar en

funcionamiento y asumir la responsabilidad en el caso que un componente

falle.

Esta sugerencia toma fuerza al referir lo expresado por Martín (1999)

quien afirma que lo que se persigue en la disponibilidad es

que la recuperación sea inmediata, consiguiendo así que ni la


aplicación ni el usuario sean consientes en ningún momento del
fallo producido, es decir que dicha recuperación sea transparente
para la aplicación y para el usuario final. La disponibilidad
también afecta el tiempo necesario para la recuperación de un
determinado fallo por esto la forma de enfrentarse a este
problema es la de contar con un respaldo de cada una de las
partes del sistema susceptibles a falla”. (P. 46)

Ahora bien, si bien es cierto que la propuesta asegura en un alto grado

la disponibilidad de los sistemas, también es cierto que debido a los altos

costos en los que se incurriría por la duplicación de cada una de las partes

sería conveniente primeramente definir los requerimientos de disponibilidad, el

tiempo tolerante a fallos ó los períodos de inoperabilidad aceptados; para


15

luego así decidir verdaderamente cuales de los componentes críticos ameritan

ser duplicados, y así evitar gastos innecesarios, pues se puede estar en

presencia de aplicaciones críticas que realmente requieren tolerancia a fallos,

aplicaciones que requieran cierto nivel de disponibilidad o aplicaciones que no

requieran alta disponibilidad.

Una vez identificadas realmente la criticidad de las aplicaciones y

conocidos los niveles de tolerancia permitido, ya entonces se puede pensar en

la corrección de puntos de fallo y en la redundancia de componentes pues

como lo expresa Peter Weygant (2000) “para conseguir alta disponibilidad se

deben configurar componentes redundantes de hardware y software que

permitan eliminar los puntos de falla”.

En este sentido y apoyando las teorías propuestas por los autores

especificados anteriormente, es necesario mencionar todos aquellos puntos

de fallos en los cuales se debe centrar la atención. Ahora bien, como la

variedad de componentes se puede tornar muy amplia, los puntos de fallos

serán categorizados en base a sus funciones y muy especialmente a las

soluciones tecnológicas existentes en el mercado que ofrecen solución a los

mismos.

Falla de las Unidades de sistemas de Procesamiento (SPU): El SPU

consiste en un grupo de elementos, cada uno de los cuales es propenso a

fallar provocando la perdida del servicio. Entre los más importantes de este

grupo cabe la pena mencionar:


16

La unidad central de procesamiento, los controladores de entrada y

salida y la tarjeta Principal

La falla en alguno de estos componentes conlleva a la caída del

sistema, siendo necesario levantar el mismo. Ahora, como se habla de

aplicaciones criticas el tiempo requerido para reinicializar puede ser

inaceptable, esto en el mejor de los casos donde la reinicialización pueda

efectuarse de manera exitosa.

Para eliminar los downtime asociados a la falla de estos componentes,

se puede optar por el uso de una tecnología cluster, la cual permite reparar o

remplazar los mismos sin tener perdida en el sistema.

En lo que respecta particularmente a los fallos en la unidad central de

procesamiento se podría quizás pensar en un esquema de

multiprocesamiento simétrico, donde cada procesador del sistema sea capaz

de realizar cualquier trabajo, pues existe una distribución de las tareas entre

los procesadores involucrados, no significando esto que los procesos que se

ejecutan en una determinada Unidad Central de procesamiento (CPU) puedan

ser completados por otro procesador, sino que el sistema puede ser capaz de

continuar ejecutando con éxito el resto de los procesos. A pesar que la

utilización de este esquema aumenta el rendimiento, no puede obviarse el

problema de memoria y gestión que conlleva su implementación, ya que la

CPU secundaria debe ser capaz de seguir de forma exacta las operaciones de

la principal, pero sin interferir en sus operaciones. Naturalmente cualquier


17

información incorrecta generada por el procesador principal en fallo también

podría ser duplicada en el secundario.

Como otro punto de falla sobre el cual hay que centrar la atención es la

falla en la red de área local (LAN). Las fallas en la red pueden ocurrir ya sea

por el tipo de conexión utilizada, por las tarjetas de interfaz, por los routers,

concentradores o incluso por las velocidades de transferencias utilizadas en la

misma. Este tipo de problemas puede eliminarse bien sea proporcionando una

redundancia total en las conexiones o configurando el switching de las tarjetas

de interfaz tal como lo sugieren empresas como HP.

En el primer esquema puede optarse por un esquema de redundar

tanto el cableado como en las tarjetas de interfaz en cada nodo evitándose así

parte del problema, sin embargo en lo que respecta a la pérdida de

conectividad, puede contarse con una configuración redundante de routers a

través del cual los clientes pueden acceder los servicios del cluster, pues con

esta redundancia la perdida de un router no implica la perdida de la

conectividad. Adicionalmente podrían duplicarse los concentradores y de este

modo asegurar que se han eliminado todos los puntos de falla en la red.

Ahora, en lo que respecta a la segunda alternativa el hablar de

configuración local no es mas que switchar la tarjeta de interfaz a un nodo

standby cuando la conectividad se pierde. Para poder lograrlo cada nodo debe

haber sido configurado como una interfaz standby, donde estos deben

pertenecer a la misma subred como interface primaria


18

En el caso que la red utilice conexiones de fibra óptica empresas

reconocidas como HP y Compaq sugieren implementar un anillo dual de fibra

óptica.

Otro punto de fallo de interés radica en los subsistemas de

almacenamiento, en este caso podría pensarse en la técnica de espejos,

donde hay dos unidades independientes para cada disco de datos, siendo la

unidad principal la encargada de manejar las peticiones de los usuarios y

utilizándose la segunda unidad como un disco imagen de la primera, es decir,

en este esquema los dos componentes realizan exactamente el mismo

trabajo de forma entrelazada, teniéndose de esta manera dos sistemas

equivalentes, de forma tal que si uno de ellos falla el otro continua trabajando.

Sin embargo, a pesar de la simplicidad, la técnica lleva asociada una

sobrecarga al rendimiento de las operaciones de escritura en disco.

Como otra alternativa podría ser la duplexación de discos o duplicación

como también se le conoce, quien virtualmente opera de la misma manera

que la técnica de espejo, excepto que añade un nuevo controlador, de allí que

el rendimiento se incremente debido a la menor contención que ocurre en el

bus de entrada y salida.

En lo que respecta a fallos por los subsistemas de almacenamiento,

hoy día se cuenta con una serie de sistemas o metodologías de combinación

de discos, conocidas como Arreglos de Discos Redundantes (RAID) que son

mas que ”un grupo de discos en o


l s cuales se almacenan además de la

información normal una serie de información redundante que permite, que en


19

el caso que alguno de los discos falle, la información pueda regenerarse de

forma automática”. Palmer (2000, p. 289)

Este esquema puede ser implementado en diferentes formas

dependiendo de la distribución que se haga en el disco, del tipo de

rendimiento y del coste, de allí que existan diferentes niveles raid.

El método RAID nivel 0 fue el primero que apareció. En realidad este

nivel RAID no incorpora tolerancia a fallos, por lo que un fallo en alguno de

sus dispositivos provoca la perdida de la información almacenada en todas las

unidades, por esta razón algunos fabricantes han liberado sistemas RAID

donde los discos se llenan de forma secuencial, alcanzando un menor

rendimiento, pero asegurando las tres cuartas partes de la información

respaldada.

Este esquema a pesar de no ofrecer tolerancia es considerado, por ser

el primer método que apareció para la conjunción de varios discos en una

única partición.

Se trata de la unión de diferentes espacios libres de distintos discos en

una sola unidad. De esta forma, un conjunto de bandas es una unidad lógica

que en realidad esta formada por varios discos, o mas concretamente por

varios espacios libres dentro de distintos discos.

Este esquema es una buena alternativa en sistemas donde sea más

importante el rendimiento que la seguridad de los datos. Es decir ambientes

que puedan soportar una pérdida de tiempo de operación para poder

reemplazar el disco que falle y reponer toda la información.


20

Un RAID de nivel 1 son discos en espejos, de esta forma se tiene

duplicada la información en dos discos distintos, de manera que si uno de

ellos falla, se continua trabajando con el otro, sin por ello perder ni eficiencia

en el servidor ni por supuesto la información. Este esquema consigue una

fiabilidad en el sistema muy mejorada ya que aunque fallaran ambos discos

simultáneamente (situación poco probable) se ahorraría tiempo de

recuperación, adicionalmente las operaciones de lectura de un disco que

forma parte de un espejo son más rápidas, ya que la lectura puede realizarse

de forma simultanea en ambos discos. Sin embrago, en términos de

almacenamiento solo se cuenta con el 50% de la capacidad total del disco, en

operaciones de escritura se afecta el rendimiento ya que la información debe

guardarse en dos sitios y en términos monetarios los costos de este esquema

son sumamente elevados.

El RAID 5, método de tolerancia a fallos mas utilizado en la actualidad,

tiene la capacidad de acceder a tantos discos como necesite al mismo tiempo

pero en peticiones independientes, por lo que su tasa de entrada y salida es

mucho mayor si se compara con los esquemas predecesores. En este

esquema la información se reparte a nivel de bloque e incluso de registro.

Aquí desaparece la necesidad de un disco de paridad, sin embargo su

implementación requiere el manejo de un mínimo de 3 discos. En este

esquema uno de los discos conocido como Spare es usado como backup de

todos los volúmenes raid que han sido configurados en el arreglo, de forma
21

que si cualquiera de los volúmenes falla, el spare es utilizado para restablecer

la información.

Entre las principales ventajas que este esquema ofrece se pueden

mencionar: Mejor utilización del disco, buena velocidad de lectura y

disminución significativa de los costos. Sin embargo y a pesar de ser un muy

buen esquema para el manejo de tolerancia a fallos, este esquema tiene

como punto en contra, el bajo rendimiento que presenta para las operaciones

de escritura.

Adicional a los niveles RAID mencionados anteriormente, se pueden

conseguir a nivel teórico otros niveles como por ejemplo el RAID 3 y RAID 4,

sin embargo estos esquemas ya no existen en el mercado, de allí el porque

no son considerados como basamento teórico de la investigación.

Adicional a todos los esquemas raid ya mencionados, también se

cuenta con los arreglos de discos EMC o arreglos simétricos que permiten

conexiones desde el mismo disco de datos a múltiples nodos del clustres a

través de diferentes buses.

El RAID, originó una nueva técnica conocida como intercambio en

caliente, que no es mas que la capacidad de sacar o introducir discos,

mientras este continua funcionando y suministrando entradas y salidas al

sistema al que está conectado. Por supuesto, esto requiere un diseño que

permita manejar las sobrecargas de energía y las interrupciones que se

producen en el bus interno de entrada y salida como resultado de las

extracciones o inserciones realizadas. En este ámbito se cuenta con una


22

técnica en particular conocida como Disk Storage Enclosure, quien permite

realizar un intercambio en caliente de los discos espejos, sin perder el

servicio, mientras el sistema operativo continua corriendo y el dispositivo

funcionando.

A pesar que los armarios RAID gozan de un excelente prestigio, por

los beneficios y la alta funcionalidad que los mismos ofrecen, el intercambio

en caliente debe considerarse como una de las últimas alternativas a

seleccionar ya que puede acabar ejecutando reconstrucciones de paridad no

deseadas.

Como se ve existe una extensa variedad de alternativas de hardware

para ofrecer alta disponibilidad de las aplicaciones, cada una de las cuales se

adapta a un escenario en particular. Sin embargo como un esquema general,

que actualmente asegura la alta disponibilidad, donde actualmente se

enmarcan la mayoría de las soluciones y que quizás es el esquema mas

implementado es a tecnología clusters, definida por Weygant (2000 p.73)

como un “grupo de servidores que poseen suficiente redundancia de software

y hardware de forma que la falla de alguno de sus componentes no impida la

disponibilidad del servicio “.Consiguiéndose así potenciar las principales

características de las aplicaciones de misión critica.

Esta tecnología puede ser implementada de tres (3) maneras

básicamente.

Configuración Activa/Standby: En esta modalidad el nodo standby es

configurado para ser activo luego que falle el nodo en donde corre la
23

aplicación crítica. En esta configuración dos o mas SPU están conectados a

un mismo disco de datos, de forma tal que si un SPU falla la aplicación se

inicia en el standby.

En este esquema generalmente el nodo backup permanece ocioso o es

el encargado de correr aplicaciones no criticas para la organización.

Configuración Activa/Activa: Es el tipo de configuración donde múltiples

nodos corren aplicaciones criticas, sirviendo alguno0s de ellos adicionalmente

como backups de otros nodos, aun corriendo sus propias aplicaciones.

En esta configuración dos o mas SPU están físicamente conectados al

mismo disco de datos de forma tal que si un SPU falla la aplicación que allí

corría levanta en uno alterno. En esta modalidad cada nodo activo ejecuta

algún paquete de aplicación, así pues, en caso de fallar un nodo el segundo

continua ejecutando la aplicación que en el corría originalmente, así como la

del nodo que presentó el problema.

Configuración de Base de Datos Paralela: Esta configuración es un

clusters en el cual en cada nodo se ejecuta simultáneamente una instancia

diferente de la misma base de datos. Aquí la perdida de un nodo no es un

problema crítico, pues los usuarios pueden conectarse a la aplicación a través

de otro nodo.

Como última opción no puede dejar de mencionarse la tecnología de

Red de Area de Almacenamiento (Storage Area Network o SAN) pues es allí

donde se dirigen las tendencias del mercado y donde se están invirtiendo

grandes esfuerzos.
24

SAN es una red dedicada en exclusiva a funciones de almacenamiento,

la cual se construye sobre una red de fibra óptica o Fibre Channel a la que se

conectan todos los servidores que utilizan el almacenamiento, ofreciendo un

ancho de banda potente. SAN es una tecnología fiable, económica y que ha

desarrollado una potencia hasta hace años desconocida. Básicamente

presenta dos opciones de implantación: Bucle Arbitrado y Fabric Switched.

SAN de Bucle Arbitrado.

Consiste en la implantación con un Hub (Concentrador) de Canal de

Fibra que ofrece únicamente los servicios de conectividad a través de la fibra

óptica para todos los servidores integrados a través de una tarjeta especial

PCI denominada “Host Adapter”.

SAN Fabric Switched.

Consiste en implantar con un conmutador especial la solución. Este

conmutador ofrece a cada puerto un ancho de banda dedicado, así como la

posibilidad de administrar a nivel avanzado “zonas” de almacenamiento y

otras características muy avanzadas con un interfaz Web. Permite además la

conectividad directa de dispositivos heterogéneos.

En ambos casos se pueden integrar soluciones que eviten utilizar el

ancho de banda de la red de área local para la realización de Backups, estas

soluciones se integran en la SAN a través de controladoras específicas

permitiendo así un altísimo rendimiento así como una operación desatendida.

La capacidad de estos sistemas de Backup oscila desde los 20GB (DLT III)

hasta Terabytes.
25

Entre las ventajas más importantes que puede ofrecer la red de área de

almacenamiento están:

Superior ancho de banda.

Administración centralizada de todo el almacenamiento.

Estandarización en recursos de almacenamiento y configuración de

servers.

Mayor flexibilidad en la utilización del espacio disponible.

Mayor tolerancia de fallas en el sistema.

Al tratarse de dispositivos de ámbito corporativo, el rendimiento de los

sistemas de almacenamiento puede llegar a ofrecer decenas de miles de I/O

(operaciones de lectura/esritura) por segundo.

Fácil integración de soluciones de backup de ámbito corporativo de

simple administración, alto rendimiento y fiabilidad.

Simplificación del proceso de adquisición de ampliaciones al sistema de

almacenamiento, pues no estará basado en modelos ni marcas de servidores.

Mejora de la facilidad de planificación de las necesidades globales.

Ahora bien el desarrollo de la investigación no solo puede sustentarse

en estas alternativas, pues la alta disponibilidad puede conseguirse tanto con

alternativas de hardware como de software, bien sea de manera

independientes o conjugándolas para así explotar en su totalidad los mejores

beneficios que cada una ofrece.

En el mercado tecnológico actual, son muchas las empresas que se

han dedicado, al desarrollo de herramientas de software orientadas a la alta


26

disponibilidad, de allí la gran variedad de soluciones existentes. Sin embargo,

como basamento teórico solo se mencionan aquellas alternativas viables para

ofrecer una solución al problema planteado.

En primer punto se puede mencionar un esquema propuesto por la

empresa HP, conocido como Journaled File System (JFS). Esta alternativa

orientada al sistema operativo Unix, utiliza una conexión especial que le

permite registrar información acerca de los cambios hechos en el file system

de metadatos. Dicha conexión permite mejorar la disponibilidad reduciendo a

solo unos segundos el tiempo necesario para reiniciar un file system luego

que el mismo ha fallado, esto debido a que registra en un archivo las

modificaciones en la estructura de datos del file system, de modo que si se

ejecuta una reinicialización solo se requiere leer dicho registro.

Ahora bien, como una alternativa opcional para expandir las funciones

de JFS se puede considerar OnlineJFS, quien elimina los downtime

planificados asociados con las actividades de mantenimiento de los file

system pues actividades como desfragmentacion, reorganización y expansión

de los file system pueden ser ejecutadas mientras las aplicaciones acceden la

data de los mismos. En lo que respecta a las actividades de backup las

mismas se ejecutan utilizando la filosofía snapshot, lo que permite que las

aplicaciones accedan la data mas reciente mientras que el proceso de backup

accede la copia.

Otro esquema de software que igualmente apoya la disponibilidad de

los sistemas es la herramienta Transaction Processing Monitors (TPM). Este


27

esquema asegura la disponibilidad en segundos cuando es usado en conjunto

con la tecnología clusters, pues se reenvían las transacciones a otro nodo

cuando el nodo original presenta alguna falla. TPM permite una rápida

restauración del servicio luego de una falla garantizando que las

transacciones incompletadas sean revertidas.

Adicionalmente existen otras alternativas de software, quizás vistas

como herramientas para el manejo de sistemas y redes que permiten manejar

automatizadamente una red compuesta por diversos tipos de servidores y

estaciones trabajo, pero que igualmente están orientadas a la alta

disponibilidad. En este sentido son varias las alternativas existentes en el

mercado y de las cuales vale la pena mencionar las principales tanto por su

utilidad como por su expansión.

Process Resource manager, es una herramienta que permite asignar

cantidades de CPU a un proceso en particular. Con esta opción pueden

asignarse los paquetes a los nodos, de forma que utilicen el 100% o diferentes

porciones del CPU. Así si una falla llegase a ocurrir las aplicaciones críticas

pueden ser movidas a otro nodo aun si en éste se esta ejecutando otra

aplicación. En este caso Process Resource Manager puede controlar las

asignaciones de CPU para permitir que las aplicaciones de mayor prioridad

obtengan mayores recursos y por ende las mismas no vayan a presentar

algún tipo de inconvenientes.

En segundo lugar se cuenta con Cluster View Network Node Manager,

una herramienta para monitorear y administrar la red de sistemas, incluyendo


28

clusters. Esta herramienta despliega de forma gráfica mapas de la red,

utilizando iconos para cada cluster, cada nodo y cada paquete que reside en

el nodo. Estos iconos permiten con una hojeada definir el status individual de

los nodos del clusters y de los paquetes que en el se ejecutan, así cuando

ocurre una falla el icono que representa el nodo y el paquete cambian de color

alertando al administrador, quien podrá entonces tomar medidas correctivas.

Otra herramienta con la que también se cuenta es HP NetMetrix, es un

sistema de análisis y monitoreo para interredes distribuidas que permite

configurar la red óptimamente, ofreciendo el acceso a la red remota de

manera instantánea. Esta herramienta muestra aquella información que se

haya definido como crítica, por ejemplo, utilización de la red, información

transmitida por los paquetes, errores en ratas de transmisión o cualquier otro

aspecto que se defina como tal. Ahora bien, si alguna falla ocurre que

involucre un aspecto referente a los previamente definidos, el sistema lo

detecta, pero solo lo reporta como una advertencia.

En este sentido, se observa claramente la gran utilidad de esta

herramienta, pues se puede adaptar el monitoreo a las necesidades

particulares de la organización.

Adicionalmente la herramienta Cluster View Operation Center es una

herramienta que automatiza y centraliza el manejo de sistemas distribuidos.

Esta herramienta monitorea los sistemas en la red respondiéndoles a los

mismos a través de un ambiente distribuido. De igual manera, permite a los

administradores utilizar un ambiente gráfico para definir procedimientos de


29

recuperación de cluster o nodos, además de contar con un agente que está en

capacidad de responder automáticamente a los eventos, notificándole al

administrador la acción tomada.

Como última herramienta orientada al manejo de sistemas y red, para

apoyar la disponibilidad de las aplicaciones criticas que se menciona es el

Open View AdminCenter, quien ayuda a mejorar la disponibilidad de los

ambientes distribuidos. Esta es una herramienta de dirección de sistemas que

automatiza el proceso de cambio de configuración para los sistemas

distribuidos, ayudando a los administradores a planificar y ejecutar cambios en

la configuración del software, file systems, periféricos y configuración del

sistema.

Otra característica de alta disponibilidad de esta herramienta en primer

lugar es que permite reducir errores humanos, pues su interacción es

totalmente gráfica evitando así la participación activa del administrador y en

segundo lugar es que permite simular escenarios de fallas, advirtiendo los

resultados en forma gráfica, de modo tal que se puedan evitar y detectar

errores innecesarios.

Como último punto y luego de haber revisado todo el basamento

teórico se debe mencionar el aporte que el autor hace a la investigación.

En este aspecto se cuenta en primer lugar con la operacionalización de

la variable Alta Disponibilidad, lo que permitió definir un instrumento a través

del cual se pudo conocer las fortalezas y debilidades de la plataforma

tecnológica de la organización. Ahora bien , este aporte permitió en segundo


30

lugar, sugerir los cambios necesarios a la plataforma actual, para así poder

asegurar la alta disponibilidad requerida por las aplicaciones críticas de la

organización.

3. DEFINICION DE TERMINOS BASICOS

Arquitectura computacional de Internet Oracle (ICA).Es una

tecnología Oracle que permite a las corporaciones implementar aplicaciones

empresariales que tengan todos los beneficios del software cliente servidor

gráfico sin el costo y la complejidad de la instalación del software en cada uno

de los clientes. (Corporación Oracle)

Cisco Local Director: Es una solución de alta disponibilidad y

escalabilidad de la casa Cisco que permite balancear el trafico TCP/IP a

través de múltiples servidores (Cisco System,inc)

Disponibilidad: Periodo de tiempo donde los servicios están

disponibles o periodo de tiempo requerido para que los sistemas respondan a

los usuarios. (Peter Weygant)

Downtime: Duración de la perdida del servicio ya sea por causas

planificadas o no planificadas (Peter Weygant)

Clusters: Grupo de servidores que poseen suficiente redundancia de

software y hardware de forma que la falla de alguno de estos componentes no

impida la disponibilidad del servicio. (Peter Weygant)

Puntos tolerantes a fallos: Elemento de hardware o software cuya

falla conlleva a la perdida del servicio del sistema (Peter Weygant)


31

RAID: Grupo de discos en los cuales se almacenan además de la

información normal una serie de información redundante que permite, que en

el caso que alguno de los discos falle, la información pueda regenerarse de

forma automática. (Palmer Michael).

Reemplazo en caliente: Reemplazo de un componente mientras el

continua operando (Peter Weygant).

4. OPERACIONALIZACION DE VARIABLES

4. 1 DEFINICION CONCEPTUAL

Según Peter Weygant el termino altamente disponible caracteriza a los

sistemas que han sido diseñados con el fin de evitar la perdida de servicios

bien sea reduciendo, manejando fallas o minimizando los downtime de los

sistemas, entendiéndose según su propia definición por downtime el tiempo

que un sistema no puede ofrecer sus servicios ya sea por causas planificadas

o no planificadas.

4. 2 DEFINICION OPERACIONAL

Sistemas de alta disponibilidad: Son aquellos sistemas que pueden

continuar operando parcial o totalmente independientemente que hayan

sufrido fallos a nivel de hardware o software disminuyendo así los tiempos de

inactividad del mismo.


32

Fiabilidad: Soluciones fiables son aquellas que están construidas

sobre componentes que rara vez fallan.

Capacidad de recuperación: Es la capacidad que tienen las

aplicaciones de recuperarse de forma automática, sin intervención humana,

en el caso que uno de los componentes falle.

Operabilidad Continua: Es la capacidad que deben tener las

aplicaciones de seguir operando u ofreciendo el servicio incluso aun cuando

falla alguno de los componentes.

Negocios: Son las oportunidades para la organización de contar con

nuevos clientes y transmitir una mejor imagen de los servicios que ofrece,

mediante el aseguramiento de la disponibilidad de las aplicaciones criticas.

Cuadro1. Operacionalización de Variables

VARIABLE DIMENSION INDICADORES ITEM

Alta Operabilidad Tolerancia 1,3


Disponibilidad Continua Hardware 8,20
Software 7.9,28
Contingencia 2,4,17,25,29
Downtime 5,6,13,32

Fiabilidad Esquemas Redundantes 10,11,12 21

Capacidad de Tecnología 14,15,1618,


Recuperación 19,22,23,24,
26,27

Negocios Clientes 30
Imagen 31

Fuente: Resultado de la investigación (Blanco, 2001)

También podría gustarte