Cap 02

10
CAPITULO II
En este capítulo se describe los antecedentes del estudio, las teorías
de diversos autores y las tecnologías de hardware y software actuales en la
que se sustenta la investigación.
MARCO TEORICO
1. ANTECEDENTES DE LA INVESTIGACIÓN
En el ámbito de Alta Disponibilidad son muchos los esfuerzos que se
han realizado, tal es el caso de corporaciones reconocidas mundialmente,
como Cisco, HP y Oracle quienes han realizado estudios en conjunto para
demostrar como se pueden alcanzar mínimos de tiempos de inoperabilidad
contando con componentes de hardware adecuados.
El estudio en cuestión se llevó a cabo en Junio de 1999 en los centros
de tecnología de las Corporaciones Oracle y Cisco. En el mismo se
integraron componentes de hardware y software de los proveedores
involucrados con el fin de demostrar como la tecnología Cisco Local Director y
Hp WebQos mejoraban la disponibilidad y escalabilidad de las aplicaciones
Oracle basadas en la arquitectura computacional de Internet Oracle (ICA).
El ambiente de prueba del estudio incluía a nivel de software Oracle
Application R11, HpWebQos y Hp Unix 11, mientras que el hardware consistió

11
de 2 Cisco Local Director, 2 Servidores de Aplicación (HP9000 D370) y un
Servidor de Base de Datos. El estudio se llevó a cabo contemplando dos
escenarios: El primero, pretendió mediante el apagado del sistema, simular
las fallas en el servidor de aplicaciones, de modo tal que los usuarios
conectados al servidor perdieron su conexión. Luego de reinicializada la
Aplicación Oracle todos los usuarios que habían estado conectados se les
restableció la conexión así como la Aplicación. El segundo escenario, simuló
la falla del Cisco Local Director mediante el apagado del Local Director
principal, en este momento el Local Director Secundario se hizo cargo
permitiendo a los usuarios continuar con su trabajo sin reflejarse perdidas ni
en conexión ni en transacciones.
Como se ve, el estudio permitió demostrar como la tecnología Cisco y
HP proveen una alta disponibilidad para las aplicaciones Oracle, sin importar
la tecnología (Oracle Developer Server ó Oracle Application Server) en la que
se basaron los módulos del mismo. Cisco Local Director es una tecnología
ideal para ser implementada en aplicaciones críticas ya que puede de una
manera automática y transparente colocar los servidores en o fuera de
servicio basándose en el momento de disponibilidad.
Por otra parte, se cuenta con la experiencia del Aeropuerto de
Manchester, el tercer aeropuerto mas importante del Reino Unido, donde
según David Pyke, jefe de proyecto de gestión de sistemas, han logrado
mantener la continuidad de las operaciones empresariales, desde las
aplicaciones de gestión de equipajes hasta la información mas importante

12
sobre vuelos gracias a que cuentan con soluciones independientes, basadas
en la duplicación de los datos, protegiéndolos en tiempo real en un servidor
secundario, lo que les permite la alta disponibilidad aun si su servidor o las
conexiones de la red fallasen, pues en este caso ocurriría un pase automático
de los usuarios al servidor secundario, asegurando así una disponibilidad
ininterrumpida de las aplicaciones.
Adicionalmente para evitar que se produzcan redireccionamientos
innecesarios, en este aeropuerto se han implementado enlaces secundarios
optativos entre el servidor primario y secundario, de forma tal que este ultimo
asuma automáticamente la identidad del servidor primario sin necesidad de
reinicializar o conectarse de nuevo
En lo que respecta a experiencias en el ámbito de la investigación se
cuenta con la experiencia de un proyecto desarrollado en 1999 por José David
Parra y Francisco Rodríguez, aspirantes al titulo de Ingenieros en Sistemas de
la Universidad Nacional de Colombia, denominado Sistema de Distribución y
Administración de procesos en red, cuyo objetivo es desarrollar un sistema
que permita resolver casi cualquier problema que pueda ser dividido y
repartido en unidades atómicas independientes, utilizando una arquitectura de
red donde los computadores estén altamente disponibles y de esta manera
resolver problemas de alta complejidad computacional.
Ahora bien en otro ámbito de ideas y como uno de los antecedentes
mas significativos está el proyecto de geoinformática que actualmente
desarrolla el gobierno de Republica Dominicana, las organizaciones que

13
conforman del Sistema Nacional de Emergencias (SNE) de este país y un con
junto de empresas venezolanas apoyado por el banco mundial, el cual
consiste en un sistema de información espacial que permite predecir bajo
ciertos parámetros prestablecidos la posibilidad de catástrofes naturales
(huracanes, inundaciones entre otras) y las acciones de asistencia a tomar en
el caso de los mismos, dependiendo de las áreas afectadas que se registren.
En este sentido y por ser este país un blanco constante de desastres
naturales, el hecho que el proyecto contemple como aspecto de gran
relevancia la propuesta de un esquema de alta disponibilidad que le asegure
a los usuarios finales del mismo (defensa civil, cruz roja, y grupos militares del
país) contar con la información que aquí se maneja los 365 días del año.
2.BASES TEORICAS
La conceptualización de una propuesta para Sistemas de Alta
Disponibilidad, correlaciona diversas áreas, sobre las que se fundamentan las
bases teóricas del desarrollo del proyecto.
Martin (1999, p.107) define la disponibilidad como “la cantidad o
porcentaje de tiempo que un sistema se encuentra disponible para la
realización de una determinada misión” . Sin embargo si se revisan las
definiciones de otros autores se puede observar como algunos de ellos
consideran que no es solo un problema de aplicación sino del entorno que se
afecta al no contar con el mismo, por ejemplo para Farley, Stearns y Hsu
(1999, p.215) Los sistemas de Alta disponibilidad se deben entender como

14
”sistemas que permiten a las aplicaciones seguir operando a pesar que el
hardware o software falle. Estos sistemas deben protegen a los usuarios de
fallos de software así como de fallas presentes en las unidades de
procesamiento, disco o en los componentes de red”. Por lo que es razonable
pensar que de ser posible eliminar los principales puntos o causas de falla en
cualquiera de estos aspectos (software, hardware, red) mayores serán las
probabilidades de contar con la disponibilidad de los sistemas críticos de la
organización, mas aun si se implantan componentes redundantes o tolerantes
a fallos quienes junto a una alternativa de software puedan entrar en
funcionamiento y asumir la responsabilidad en el caso que un componente
falle.
Esta sugerencia toma fuerza al referir lo expresado por Martín (1999)
quien afirma que lo que se persigue en la disponibilidad es
que la recuperación sea inmediata, consiguiendo así que ni la

aplicación ni el usuario sean consientes en ningún momento del
fallo producido, es decir que dicha recuperación sea transparente
para la aplicación y para el usuario final. La disponibilidad
también afecta el tiempo necesario para la recuperación de un
determinado fallo por esto la forma de enfrentarse a este
problema es la de contar con un respaldo de cada una de las
partes del sistema susceptibles a falla”. (P. 46)
Ahora bien, si bien es cierto que la propuesta asegura en un alto grado
la disponibilidad de los sistemas, también es cierto que debido a los altos
costos en los que se incurriría por la duplicación de cada una de las partes
sería conveniente primeramente definir los requerimientos de disponibilidad, el
tiempo tolerante a fallos ó los períodos de inoperabilidad aceptados; para

15
luego así decidir verdaderamente cuales de los componentes críticos ameritan
ser duplicados, y así evitar gastos innecesarios, pues se puede estar en
presencia de aplicaciones críticas que realmente requieren tolerancia a fallos,
aplicaciones que requieran cierto nivel de disponibilidad o aplicaciones que no
requieran alta disponibilidad.
Una vez identificadas realmente la criticidad de las aplicaciones y
conocidos los niveles de tolerancia permitido, ya entonces se puede pensar en
la corrección de puntos de fallo y en la redundancia de componentes pues
como lo expresa Peter Weygant (2000) “para conseguir alta disponibilidad se
deben configurar componentes redundantes de hardware y software que
permitan eliminar los puntos de falla”.
En este sentido y apoyando las teorías propuestas por los autores
especificados anteriormente, es necesario mencionar todos aquellos puntos
de fallos en los cuales se debe centrar la atención. Ahora bien, como la
variedad de componentes se puede tornar muy amplia, los puntos de fallos
serán categorizados en base a sus funciones y muy especialmente a las
soluciones tecnológicas existentes en el mercado que ofrecen solución a los
mismos.
Falla de las Unidades de sistemas de Procesamiento (SPU): El SPU
consiste en un grupo de elementos, cada uno de los cuales es propenso a
fallar provocando la perdida del servicio. Entre los más importantes de este
grupo cabe la pena mencionar:

16
La unidad central de procesamiento, los controladores de entrada y
salida y la tarjeta Principal
La falla en alguno de estos componentes conlleva a la caída del
sistema, siendo necesario levantar el mismo. Ahora, como se habla de
aplicaciones criticas el tiempo requerido para reinicializar puede ser
inaceptable, esto en el mejor de los casos donde la reinicialización pueda
efectuarse de manera exitosa.
Para eliminar los downtime asociados a la falla de estos componentes,
se puede optar por el uso de una tecnología cluster, la cual permite reparar o
remplazar los mismos sin tener perdida en el sistema.
En lo que respecta particularmente a los fallos en la unidad central de
procesamiento se podría quizás pensar en un esquema de
multiprocesamiento simétrico, donde cada procesador del sistema sea capaz
de realizar cualquier trabajo, pues existe una distribución de las tareas entre
los procesadores involucrados, no significando esto que los procesos que se
ejecutan en una determinada Unidad Central de procesamiento (CPU) puedan
ser completados por otro procesador, sino que el sistema puede ser capaz de
continuar ejecutando con éxito el resto de los procesos. A pesar que la
utilización de este esquema aumenta el rendimiento, no puede obviarse el
problema de memoria y gestión que conlleva su implementación, ya que la
CPU secundaria debe ser capaz de seguir de forma exacta las operaciones de
la principal, pero sin interferir en sus operaciones. Naturalmente cualquier

17
información incorrecta generada por el procesador principal en fallo también
podría ser duplicada en el secundario.
Como otro punto de falla sobre el cual hay que centrar la atención es la
falla en la red de área local (LAN). Las fallas en la red pueden ocurrir ya sea
por el tipo de conexión utilizada, por las tarjetas de interfaz, por los routers,
concentradores o incluso por las velocidades de transferencias utilizadas en la
misma. Este tipo de problemas puede eliminarse bien sea proporcionando una
redundancia total en las conexiones o configurando el switching de las tarjetas
de interfaz tal como lo sugieren empresas como HP.
En el primer esquema puede optarse por un esquema de redundar
tanto el cableado como en las tarjetas de interfaz en cada nodo evitándose así
parte del problema, sin embargo en lo que respecta a la pérdida de
conectividad, puede contarse con una configuración redundante de routers a
través del cual los clientes pueden acceder los servicios del cluster, pues con
esta redundancia la perdida de un router no implica la perdida de la
conectividad. Adicionalmente podrían duplicarse los concentradores y de este
modo asegurar que se han eliminado todos los puntos de falla en la red.
Ahora, en lo que respecta a la segunda alternativa el hablar de
configuración local no es mas que switchar la tarjeta de interfaz a un nodo
standby cuando la conectividad se pierde. Para poder lograrlo cada nodo debe
haber sido configurado como una interfaz standby, donde estos deben
pertenecer a la misma subred como interface primaria

18
En el caso que la red utilice conexiones de fibra óptica empresas
reconocidas como HP y Compaq sugieren implementar un anillo dual de fibra
óptica.
Otro punto de fallo de interés radica en los subsistemas de
almacenamiento, en este caso podría pensarse en la técnica de espejos,
donde hay dos unidades independientes para cada disco de datos, siendo la
unidad principal la encargada de manejar las peticiones de los usuarios y
utilizándose la segunda unidad como un disco imagen de la primera, es decir,
en este esquema los dos componentes realizan exactamente el mismo
trabajo de forma entrelazada, teniéndose de esta manera dos sistemas
equivalentes, de forma tal que si uno de ellos falla el otro continua trabajando.
Sin embargo, a pesar de la simplicidad, la técnica lleva asociada una
sobrecarga al rendimiento de las operaciones de escritura en disco.
Como otra alternativa podría ser la duplexación de discos o duplicación
como también se le conoce, quien virtualmente opera de la misma manera
que la técnica de espejo, excepto que añade un nuevo controlador, de allí que
el rendimiento se incremente debido a la menor contención que ocurre en el
bus de entrada y salida.
En lo que respecta a fallos por los subsistemas de almacenamiento,
hoy día se cuenta con una serie de sistemas o metodologías de combinación
de discos, conocidas como Arreglos de Discos Redundantes (RAID) que son
mas que ”un grupo de discos en o

l s cuales se almacenan además de la
información normal una serie de información redundante que permite, que en

19
el caso que alguno de los discos falle, la información pueda regenerarse de
forma automática”. Palmer (2000, p. 289)
Este esquema puede ser implementado en diferentes formas
dependiendo de la distribución que se haga en el disco, del tipo de
rendimiento y del coste, de allí que existan diferentes niveles raid.
El método RAID nivel 0 fue el primero que apareció. En realidad este
nivel RAID no incorpora tolerancia a fallos, por lo que un fallo en alguno de
sus dispositivos provoca la perdida de la información almacenada en todas las
unidades, por esta razón algunos fabricantes han liberado sistemas RAID
donde los discos se llenan de forma secuencial, alcanzando un menor
rendimiento, pero asegurando las tres cuartas partes de la información
respaldada.
Este esquema a pesar de no ofrecer tolerancia es considerado, por ser
el primer método que apareció para la conjunción de varios discos en una
única partición.
Se trata de la unión de diferentes espacios libres de distintos discos en
una sola unidad. De esta forma, un conjunto de bandas es una unidad lógica
que en realidad esta formada por varios discos, o mas concretamente por
varios espacios libres dentro de distintos discos.
Este esquema es una buena alternativa en sistemas donde sea más
importante el rendimiento que la seguridad de los datos. Es decir ambientes
que puedan soportar una pérdida de tiempo de operación para poder
reemplazar el disco que falle y reponer toda la información.

20
Un RAID de nivel 1 son discos en espejos, de esta forma se tiene
duplicada la información en dos discos distintos, de manera que si uno de
ellos falla, se continua trabajando con el otro, sin por ello perder ni eficiencia
en el servidor ni por supuesto la información. Este esquema consigue una
fiabilidad en el sistema muy mejorada ya que aunque fallaran ambos discos
simultáneamente (situación poco probable) se ahorraría tiempo de
recuperación, adicionalmente las operaciones de lectura de un disco que
forma parte de un espejo son más rápidas, ya que la lectura puede realizarse
de forma simultanea en ambos discos. Sin embrago, en términos de
almacenamiento solo se cuenta con el 50% de la capacidad total del disco, en
operaciones de escritura se afecta el rendimiento ya que la información debe
guardarse en dos sitios y en términos monetarios los costos de este esquema
son sumamente elevados.
El RAID 5, método de tolerancia a fallos mas utilizado en la actualidad,
tiene la capacidad de acceder a tantos discos como necesite al mismo tiempo
pero en peticiones independientes, por lo que su tasa de entrada y salida es
mucho mayor si se compara con los esquemas predecesores. En este
esquema la información se reparte a nivel de bloque e incluso de registro.
Aquí desaparece la necesidad de un disco de paridad, sin embargo su
implementación requiere el manejo de un mínimo de 3 discos. En este
esquema uno de los discos conocido como Spare es usado como backup de
todos los volúmenes raid que han sido configurados en el arreglo, de forma
21
que si cualquiera de los volúmenes falla, el spare es utilizado para restablecer
la información.
Entre las principales ventajas que este esquema ofrece se pueden
mencionar: Mejor utilización del disco, buena velocidad de lectura y
disminución significativa de los costos. Sin embargo y a pesar de ser un muy
buen esquema para el manejo de tolerancia a fallos, este esquema tiene
como punto en contra, el bajo rendimiento que presenta para las operaciones
de escritura.
Adicional a los niveles RAID mencionados anteriormente, se pueden
conseguir a nivel teórico otros niveles como por ejemplo el RAID 3 y RAID 4,
sin embargo estos esquemas ya no existen en el mercado, de allí el porque
no son considerados como basamento teórico de la investigación.
Adicional a todos los esquemas raid ya mencionados, también se
cuenta con los arreglos de discos EMC o arreglos simétricos que permiten
conexiones desde el mismo disco de datos a múltiples nodos del clustres a
través de diferentes buses.
El RAID, originó una nueva técnica conocida como intercambio en
caliente, que no es mas que la capacidad de sacar o introducir discos,
mientras este continua funcionando y suministrando entradas y salidas al
sistema al que está conectado. Por supuesto, esto requiere un diseño que
permita manejar las sobrecargas de energía y las interrupciones que se
producen en el bus interno de entrada y salida como resultado de las
extracciones o inserciones realizadas. En este ámbito se cuenta con una

22
técnica en particular conocida como Disk Storage Enclosure, quien permite
realizar un intercambio en caliente de los discos espejos, sin perder el
servicio, mientras el sistema operativo continua corriendo y el dispositivo
funcionando.
A pesar que los armarios RAID gozan de un excelente prestigio, por
los beneficios y la alta funcionalidad que los mismos ofrecen, el intercambio
en caliente debe considerarse como una de las últimas alternativas a
seleccionar ya que puede acabar ejecutando reconstrucciones de paridad no
deseadas.
Como se ve existe una extensa variedad de alternativas de hardware
para ofrecer alta disponibilidad de las aplicaciones, cada una de las cuales se
adapta a un escenario en particular. Sin embargo como un esquema general,
que actualmente asegura la alta disponibilidad, donde actualmente se
enmarcan la mayoría de las soluciones y que quizás es el esquema mas
implementado es a tecnología clusters, definida por Weygant (2000 p.73)
como un “grupo de servidores que poseen suficiente redundancia de software
y hardware de forma que la falla de alguno de sus componentes no impida la
disponibilidad del servicio “.Consiguiéndose así potenciar las principales
características de las aplicaciones de misión critica.
Esta tecnología puede ser implementada de tres (3) maneras
básicamente.
Configuración Activa/Standby: En esta modalidad el nodo standby es
configurado para ser activo luego que falle el nodo en donde corre la
23
aplicación crítica. En esta configuración dos o mas SPU están conectados a
un mismo disco de datos, de forma tal que si un SPU falla la aplicación se
inicia en el standby.
En este esquema generalmente el nodo backup permanece ocioso o es
el encargado de correr aplicaciones no criticas para la organización.
Configuración Activa/Activa: Es el tipo de configuración donde múltiples
nodos corren aplicaciones criticas, sirviendo alguno0s de ellos adicionalmente
como backups de otros nodos, aun corriendo sus propias aplicaciones.
En esta configuración dos o mas SPU están físicamente conectados al
mismo disco de datos de forma tal que si un SPU falla la aplicación que allí
corría levanta en uno alterno. En esta modalidad cada nodo activo ejecuta
algún paquete de aplicación, así pues, en caso de fallar un nodo el segundo
continua ejecutando la aplicación que en el corría originalmente, así como la
del nodo que presentó el problema.
Configuración de Base de Datos Paralela: Esta configuración es un
clusters en el cual en cada nodo se ejecuta simultáneamente una instancia
diferente de la misma base de datos. Aquí la perdida de un nodo no es un
problema crítico, pues los usuarios pueden conectarse a la aplicación a través
de otro nodo.
Como última opción no puede dejar de mencionarse la tecnología de
Red de Area de Almacenamiento (Storage Area Network o SAN) pues es allí
donde se dirigen las tendencias del mercado y donde se están invirtiendo
grandes esfuerzos.
24
SAN es una red dedicada en exclusiva a funciones de almacenamiento,
la cual se construye sobre una red de fibra óptica o Fibre Channel a la que se
conectan todos los servidores que utilizan el almacenamiento, ofreciendo un
ancho de banda potente. SAN es una tecnología fiable, económica y que ha
desarrollado una potencia hasta hace años desconocida. Básicamente
presenta dos opciones de implantación: Bucle Arbitrado y Fabric Switched.
SAN de Bucle Arbitrado.
Consiste en la implantación con un Hub (Concentrador) de Canal de
Fibra que ofrece únicamente los servicios de conectividad a través de la fibra
óptica para todos los servidores integrados a través de una tarjeta especial
PCI denominada “Host Adapter”.
SAN Fabric Switched.
Consiste en implantar con un conmutador especial la solución. Este
conmutador ofrece a cada puerto un ancho de banda dedicado, así como la
posibilidad de administrar a nivel avanzado “zonas” de almacenamiento y
otras características muy avanzadas con un interfaz Web. Permite además la
conectividad directa de dispositivos heterogéneos.
En ambos casos se pueden integrar soluciones que eviten utilizar el
ancho de banda de la red de área local para la realización de Backups, estas
soluciones se integran en la SAN a través de controladoras específicas
permitiendo así un altísimo rendimiento así como una operación desatendida.
La capacidad de estos sistemas de Backup oscila desde los 20GB (DLT III)
hasta Terabytes.
25
Entre las ventajas más importantes que puede ofrecer la red de área de
almacenamiento están:
Superior ancho de banda.
Administración centralizada de todo el almacenamiento.
Estandarización en recursos de almacenamiento y configuración de
servers.
Mayor flexibilidad en la utilización del espacio disponible.
Mayor tolerancia de fallas en el sistema.
Al tratarse de dispositivos de ámbito corporativo, el rendimiento de los
sistemas de almacenamiento puede llegar a ofrecer decenas de miles de I/O
(operaciones de lectura/esritura) por segundo.
Fácil integración de soluciones de backup de ámbito corporativo de
simple administración, alto rendimiento y fiabilidad.
Simplificación del proceso de adquisición de ampliaciones al sistema de
almacenamiento, pues no estará basado en modelos ni marcas de servidores.
Mejora de la facilidad de planificación de las necesidades globales.
Ahora bien el desarrollo de la investigación no solo puede sustentarse
en estas alternativas, pues la alta disponibilidad puede conseguirse tanto con
alternativas de hardware como de software, bien sea de manera
independientes o conjugándolas para así explotar en su totalidad los mejores
beneficios que cada una ofrece.
En el mercado tecnológico actual, son muchas las empresas que se
han dedicado, al desarrollo de herramientas de software orientadas a la alta

26
disponibilidad, de allí la gran variedad de soluciones existentes. Sin embargo,
como basamento teórico solo se mencionan aquellas alternativas viables para
ofrecer una solución al problema planteado.
En primer punto se puede mencionar un esquema propuesto por la
empresa HP, conocido como Journaled File System (JFS). Esta alternativa
orientada al sistema operativo Unix, utiliza una conexión especial que le
permite registrar información acerca de los cambios hechos en el file system
de metadatos. Dicha conexión permite mejorar la disponibilidad reduciendo a
solo unos segundos el tiempo necesario para reiniciar un file system luego
que el mismo ha fallado, esto debido a que registra en un archivo las
modificaciones en la estructura de datos del file system, de modo que si se
ejecuta una reinicialización solo se requiere leer dicho registro.
Ahora bien, como una alternativa opcional para expandir las funciones
de JFS se puede considerar OnlineJFS, quien elimina los downtime
planificados asociados con las actividades de mantenimiento de los file
system pues actividades como desfragmentacion, reorganización y expansión
de los file system pueden ser ejecutadas mientras las aplicaciones acceden la
data de los mismos. En lo que respecta a las actividades de backup las
mismas se ejecutan utilizando la filosofía snapshot, lo que permite que las
aplicaciones accedan la data mas reciente mientras que el proceso de backup
accede la copia.
Otro esquema de software que igualmente apoya la disponibilidad de
los sistemas es la herramienta Transaction Processing Monitors (TPM). Este

27
esquema asegura la disponibilidad en segundos cuando es usado en conjunto
con la tecnología clusters, pues se reenvían las transacciones a otro nodo
cuando el nodo original presenta alguna falla. TPM permite una rápida
restauración del servicio luego de una falla garantizando que las
transacciones incompletadas sean revertidas.
Adicionalmente existen otras alternativas de software, quizás vistas
como herramientas para el manejo de sistemas y redes que permiten manejar
automatizadamente una red compuesta por diversos tipos de servidores y
estaciones trabajo, pero que igualmente están orientadas a la alta
disponibilidad. En este sentido son varias las alternativas existentes en el
mercado y de las cuales vale la pena mencionar las principales tanto por su
utilidad como por su expansión.
Process Resource manager, es una herramienta que permite asignar
cantidades de CPU a un proceso en particular. Con esta opción pueden
asignarse los paquetes a los nodos, de forma que utilicen el 100% o diferentes
porciones del CPU. Así si una falla llegase a ocurrir las aplicaciones críticas
pueden ser movidas a otro nodo aun si en éste se esta ejecutando otra
aplicación. En este caso Process Resource Manager puede controlar las
asignaciones de CPU para permitir que las aplicaciones de mayor prioridad
obtengan mayores recursos y por ende las mismas no vayan a presentar
algún tipo de inconvenientes.
En segundo lugar se cuenta con Cluster View Network Node Manager,
una herramienta para monitorear y administrar la red de sistemas, incluyendo

28
clusters. Esta herramienta despliega de forma gráfica mapas de la red,
utilizando iconos para cada cluster, cada nodo y cada paquete que reside en
el nodo. Estos iconos permiten con una hojeada definir el status individual de
los nodos del clusters y de los paquetes que en el se ejecutan, así cuando
ocurre una falla el icono que representa el nodo y el paquete cambian de color
alertando al administrador, quien podrá entonces tomar medidas correctivas.
Otra herramienta con la que también se cuenta es HP NetMetrix, es un
sistema de análisis y monitoreo para interredes distribuidas que permite
configurar la red óptimamente, ofreciendo el acceso a la red remota de
manera instantánea. Esta herramienta muestra aquella información que se
haya definido como crítica, por ejemplo, utilización de la red, información
transmitida por los paquetes, errores en ratas de transmisión o cualquier otro
aspecto que se defina como tal. Ahora bien, si alguna falla ocurre que
involucre un aspecto referente a los previamente definidos, el sistema lo
detecta, pero solo lo reporta como una advertencia.
En este sentido, se observa claramente la gran utilidad de esta
herramienta, pues se puede adaptar el monitoreo a las necesidades
particulares de la organización.
Adicionalmente la herramienta Cluster View Operation Center es una
herramienta que automatiza y centraliza el manejo de sistemas distribuidos.
Esta herramienta monitorea los sistemas en la red respondiéndoles a los
mismos a través de un ambiente distribuido. De igual manera, permite a los
administradores utilizar un ambiente gráfico para definir procedimientos de

29
recuperación de cluster o nodos, además de contar con un agente que está en
capacidad de responder automáticamente a los eventos, notificándole al
administrador la acción tomada.
Como última herramienta orientada al manejo de sistemas y red, para
apoyar la disponibilidad de las aplicaciones criticas que se menciona es el
Open View AdminCenter, quien ayuda a mejorar la disponibilidad de los
ambientes distribuidos. Esta es una herramienta de dirección de sistemas que
automatiza el proceso de cambio de configuración para los sistemas
distribuidos, ayudando a los administradores a planificar y ejecutar cambios en
la configuración del software, file systems, periféricos y configuración del
sistema.
Otra característica de alta disponibilidad de esta herramienta en primer
lugar es que permite reducir errores humanos, pues su interacción es
totalmente gráfica evitando así la participación activa del administrador y en
segundo lugar es que permite simular escenarios de fallas, advirtiendo los
resultados en forma gráfica, de modo tal que se puedan evitar y detectar
errores innecesarios.
Como último punto y luego de haber revisado todo el basamento
teórico se debe mencionar el aporte que el autor hace a la investigación.
En este aspecto se cuenta en primer lugar con la operacionalización de
la variable Alta Disponibilidad, lo que permitió definir un instrumento a través
del cual se pudo conocer las fortalezas y debilidades de la plataforma
tecnológica de la organización. Ahora bien , este aporte permitió en segundo

30
lugar, sugerir los cambios necesarios a la plataforma actual, para así poder
asegurar la alta disponibilidad requerida por las aplicaciones críticas de la
organización.
3. DEFINICION DE TERMINOS BASICOS
Arquitectura computacional de Internet Oracle (ICA).Es una
tecnología Oracle que permite a las corporaciones implementar aplicaciones
empresariales que tengan todos los beneficios del software cliente servidor
gráfico sin el costo y la complejidad de la instalación del software en cada uno
de los clientes. (Corporación Oracle)
Cisco Local Director: Es una solución de alta disponibilidad y
escalabilidad de la casa Cisco que permite balancear el trafico TCP/IP a
través de múltiples servidores (Cisco System,inc)
Disponibilidad: Periodo de tiempo donde los servicios están
disponibles o periodo de tiempo requerido para que los sistemas respondan a
los usuarios. (Peter Weygant)
Downtime: Duración de la perdida del servicio ya sea por causas
planificadas o no planificadas (Peter Weygant)
Clusters: Grupo de servidores que poseen suficiente redundancia de
software y hardware de forma que la falla de alguno de estos componentes no
impida la disponibilidad del servicio. (Peter Weygant)
Puntos tolerantes a fallos: Elemento de hardware o software cuya
falla conlleva a la perdida del servicio del sistema (Peter Weygant)

31
RAID: Grupo de discos en los cuales se almacenan además de la
información normal una serie de información redundante que permite, que en
el caso que alguno de los discos falle, la información pueda regenerarse de
forma automática. (Palmer Michael).
Reemplazo en caliente: Reemplazo de un componente mientras el
continua operando (Peter Weygant).
4. OPERACIONALIZACION DE VARIABLES
4. 1 DEFINICION CONCEPTUAL
Según Peter Weygant el termino altamente disponible caracteriza a los
sistemas que han sido diseñados con el fin de evitar la perdida de servicios
bien sea reduciendo, manejando fallas o minimizando los downtime de los
sistemas, entendiéndose según su propia definición por downtime el tiempo
que un sistema no puede ofrecer sus servicios ya sea por causas planificadas
o no planificadas.
4. 2 DEFINICION OPERACIONAL
Sistemas de alta disponibilidad: Son aquellos sistemas que pueden
continuar operando parcial o totalmente independientemente que hayan
sufrido fallos a nivel de hardware o software disminuyendo así los tiempos de
inactividad del mismo.

32
Fiabilidad: Soluciones fiables son aquellas que están construidas
sobre componentes que rara vez fallan.
Capacidad de recuperación: Es la capacidad que tienen las
aplicaciones de recuperarse de forma automática, sin intervención humana,
en el caso que uno de los componentes falle.
Operabilidad Continua: Es la capacidad que deben tener las
aplicaciones de seguir operando u ofreciendo el servicio incluso aun cuando
falla alguno de los componentes.
Negocios: Son las oportunidades para la organización de contar con
nuevos clientes y transmitir una mejor imagen de los servicios que ofrece,
mediante el aseguramiento de la disponibilidad de las aplicaciones criticas.
Cuadro1. Operacionalización de Variables
VARIABLE DIMENSION INDICADORES ITEM
Alta Operabilidad Tolerancia 1,3

Disponibilidad Continua Hardware 8,20
Software 7.9,28
Contingencia 2,4,17,25,29
Downtime 5,6,13,32
Fiabilidad Esquemas Redundantes 10,11,12 21
Capacidad de Tecnología 14,15,1618,

Recuperación 19,22,23,24,
26,27
Negocios Clientes 30
Imagen 31
Fuente: Resultado de la investigación (Blanco, 2001)

Cap 02

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Cap 02

Cargado por

Copyright:

Formatos disponibles

10

En este capítulo se describe los antecedentes del estudio, las teorías

de diversos autores y las tecnologías de hardware y software actuales en la

que se sustenta la investigación.

En el ámbito de Alta Disponibilidad son muchos los esfuerzos que se

han realizado, tal es el caso de corporaciones reconocidas mundialmente,

como Cisco, HP y Oracle quienes han realizado estudios en conjunto para

demostrar como se pueden alcanzar mínimos de tiempos de inoperabilidad

contando con componentes de hardware adecuados.

El estudio en cuestión se llevó a cabo en Junio de 1999 en los centros

de tecnología de las Corporaciones Oracle y Cisco. En el mismo se

integraron componentes de hardware y software de los proveedores

involucrados con el fin de demostrar como la tecnología Cisco Local Director y

Hp WebQos mejoraban la disponibilidad y escalabilidad de las aplicaciones

Oracle basadas en la arquitectura computacional de Internet Oracle (ICA).

El ambiente de prueba del estudio incluía a nivel de software Oracle

Application R11, HpWebQos y Hp Unix 11, mientras que el hardware consistió

de 2 Cisco Local Director, 2 Servidores de Aplicación (HP9000 D370) y un

Servidor de Base de Datos. El estudio se llevó a cabo contemplando dos

escenarios: El primero, pretendió mediante el apagado del sistema, simular

las fallas en el servidor de aplicaciones, de modo tal que los usuarios

conectados al servidor perdieron su conexión. Luego de reinicializada la

restableció la conexión así como la Aplicación. El segundo escenario, simuló

principal, en este momento el Local Director Secundario se hizo cargo

permitiendo a los usuarios continuar con su trabajo sin reflejarse perdidas ni

Como se ve, el estudio permitió demostrar como la tecnología Cisco y

la tecnología (Oracle Developer Server ó Oracle Application Server) en la que

ideal para ser implementada en aplicaciones críticas ya que puede de una

manera automática y transparente colocar los servidores en o fuera de

servicio basándose en el momento de disponibilidad.

Por otra parte, se cuenta con la experiencia del Aeropuerto de

Manchester, el tercer aeropuerto mas importante del Reino Unido, donde

según David Pyke, jefe de proyecto de gestión de sistemas, han logrado

mantener la continuidad de las operaciones empresariales, desde las

aplicaciones de gestión de equipajes hasta la información mas importante

sobre vuelos gracias a que cuentan con soluciones independientes, basadas

en la duplicación de los datos, protegiéndolos en tiempo real en un servidor

secundario, lo que les permite la alta disponibilidad aun si su servidor o las

conexiones de la red fallasen, pues en este caso ocurriría un pase automático

de los usuarios al servidor secundario, asegurando así una disponibilidad

ininterrumpida de las aplicaciones.

Adicionalmente para evitar que se produzcan redireccionamientos

innecesarios, en este aeropuerto se han implementado enlaces secundarios

asuma automáticamente la identidad del servidor primario sin necesidad de

reinicializar o conectarse de nuevo

En lo que respecta a experiencias en el ámbito de la investigación se

cuenta con la experiencia de un proyecto desarrollado en 1999 por José David

Parra y Francisco Rodríguez, aspirantes al titulo de Ingenieros en Sistemas de

la Universidad Nacional de Colombia, denominado Sistema de Distribución y

Administración de procesos en red, cuyo objetivo es desarrollar un sistema

repartido en unidades atómicas independientes, utilizando una arquitectura de

red donde los computadores estén altamente disponibles y de esta manera

resolver problemas de alta complejidad computacional.

Ahora bien en otro ámbito de ideas y como uno de los antecedentes

mas significativos está el proyecto de geoinformática que actualmente

desarrolla el gobierno de Republica Dominicana, las organizaciones que

conforman del Sistema Nacional de Emergencias (SNE) de este país y un con

junto de empresas venezolanas apoyado por el banco mundial, el cual

consiste en un sistema de información espacial que permite predecir bajo

ciertos parámetros prestablecidos la posibilidad de catástrofes naturales

(huracanes, inundaciones entre otras) y las acciones de asistencia a tomar en

el caso de los mismos, dependiendo de las áreas afectadas que se registren.

En este sentido y por ser este país un blanco constante de desastres