Está en la página 1de 13

Tiempo medio entre

fallas: explicacin y
estndares

Por Wendy Torell


y Victor Avelar

Informe interno
N 78

Resumen ejecutivo
El tiempo medio entre fallas (MTBF) es un trmino de confiabilidad que se utiliza con
demasiada ligereza en muchas industrias y, en algunas, su uso ya es abusivo. Con el correr
de los aos, el significado original de este trmino fue modificndose, y ahora causa
confusin y cinismo. En gran medida, el MTBF se basa en supuestos; por eso, la definicin
de falla y una mirada atenta a estos detalles cobran vital importancia para lograr una
interpretacin correcta. En este informe se explican las complejidades y los errores
subyacentes del MTBF, y los mtodos disponibles para calcular este valor.

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilizacin, reproduccin, fotocopiado,
transmisin o almacenamiento parcial o total de esta publicacin, en cualquier sistema de recuperacin de cualquier tipo, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-0

Introduccin
El tiempo medio entre fallas (MTBF) se ha utilizado por ms de 60 aos como fundamento para varias
decisiones. Con el correr de los aos, se desarrollaron ms de 20 mtodos y procedimientos para
predecir la vida til de los productos. Por lo tanto, no resulta extrao que el MTBF sea un tema central en
eterno debate. Un rea en particular en la que esto se hace evidente es el diseo de infraestructuras de
misin crtica que albergan equipos informticos y de telecomunicaciones. Cuando apenas unos minutos
de inactividad pueden afectar en forma negativa el valor de mercado de una empresa, es crucial que la
infraestructura fsica que sustenta este entorno de red sea confiable. Sin una slida comprensin del
MTBF, es posible que no se alcance el objetivo de confiabilidad de la empresa. En este informe se explican
con ejemplos todos los aspectos del MTBF, con la intencin de simplificar la complejidad y esclarecer los
errores.

Qu es una falla? Cules son los supuestos?


Estos interrogantes deben responderse de inmediato cuando se analiza cualquier valor de MTBF. Sin las
respuestas a estas preguntas, el anlisis carece prcticamente de valor. Muchas veces se cita el MTBF sin
ofrecer una definicin de falla. Esta prctica no solo induce a errores, sino que carece de utilidad alguna.
Sera similar a promocionar el rendimiento del combustible en un automvil expresado en millas por
tanque sin definir la capacidad del tanque en litros o galones. Para despejar esta ambigedad, se podra
argumentar que existen dos definiciones bsicas para las fallas:
1)

Finalizacin de la capacidad de un producto en su conjunto para realizar la funcin requerida.1

2)

Finalizacin de la capacidad de cualquier componente individual para realizar la funcin requerida,


pero sin la finalizacin de la capacidad de un producto en su conjunto para funcionar.2

Mediante los siguientes dos ejemplos se ilustra cmo un modo de falla en particular podra clasificarse o
no como falla, segn la definicin que se elija.

Ejemplo 1:
Si falla un disco redundante en un sistema RAID, la falla no impide que el sistema RAID cumpla la funcin
requerida de proporcionar datos crticos en ningn momento. Sin embargo, la falla del disco impide que un
componente del sistema de discos realice la funcin requerida de proveer capacidad de almacenamiento.
Por lo tanto, segn la definicin 1, no se trata de una falla pero, segn la definicin dos, s constituye una
falla.

1
2

IEC-50
IEC-50

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilizacin, reproduccin, fotocopiado,
transmisin o almacenamiento parcial o total de esta publicacin, en cualquier sistema de recuperacin de cualquier tipo, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-0

Ejemplo 2:
Si falla el inversor de un sistema UPS y el sistema UPS conmuta al modo de bypass esttico, la falla no
impide que el sistema UPS cumpla la funcin requerida, que es alimentar a la carga crtica. Sin embargo,
la falla del inversor impide que un componente del sistema UPS realice la funcin requerida de proveer
energa acondicionada. Al igual que en el ejemplo anterior, se tratara de una falla solo de acuerdo con la
segunda definicin. Si existieran tan solo dos d efiniciones, la determinacin de las fallas sera bastante
sencilla. Lamentablemente, cuando est en juego la reputacin de un producto, el asunto es casi tan
complicado como el MTBF en s. En realidad, existen ms de dos definiciones de fallas; de hecho, la
cantidad es infinita. Segn el tipo de producto, los fabricantes pueden tener diversas definiciones de fallas.
Los fabricantes que se preocupan por la calidad aplican un control de procesos a todos los modos de
fallas, lo cual, entre otros beneficios, elimina los defectos de los productos. Por lo tanto, se necesitan
preguntas adicionales que definan el concepto de falla con precisin.

Se considera falla una mala aplicacin por parte del cliente? Los diseadores podran haber omitido
factores humanos y as surgira la tendencia de los usuarios a aplicar mal el producto. Se consideran
fallas las cadas de carga que ocasiona el tcnico del distribuidor? Es posible que el diseo del producto
en s aumente la probabilidad de fallas en un procedimiento de por s riesgoso? Si fallara un indicador LED
de una computadora, se considerara falla aunque no haya afectado el funcionamiento de la
computadora? El desgaste natural de un insumo, por ejemplo, una batera, se considerara falla si
presentara anomalas en forma prematura? Se consideran fallas los daos sufridos durante el
transporte? Podran indicar una deficiencia en el diseo del embalaje. Es claro que la importancia de
definir una falla debe ser obvia y debe comprenderse antes de tratar de interpreta r cualquier valor de MTBF.
Preguntas como estas son las que fijan los cimientos sobre los que pueden tomarse decisiones acerca
de la confiabilidad.

Se dice que los ingenieros nunca se equivocan; solo parten de supuestos errneos. Lo mismo puede
decirse de aquellos que calculan los valores de MTBF. Es preciso basarse en supuestos para simplificar
el proceso de clculo del MTBF. Sera virtualmente imposible recabar los datos para calcular un nmero
exacto. Sin embargo, todos los supuestos deben ser razonables. A lo largo de este informe, se describen
los supuestos que acostumbran a utilizarse para calcular el MTBF.

Definicin de confiabilidad, disponibilidad, MTBF y


MTTR
El MTBF tiene incidencia tanto en la confiabilidad como en la disponibilidad. Antes de p roceder a explicar
los mtodos de clculo del MTBF, es importante tener una idea slida de estos conceptos. La diferencia
2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilizacin, reproduccin, fotocopiado,
transmisin o almacenamiento parcial o total de esta publicacin, en cualquier sistema de recuperacin de cualquier tipo, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-0

entre confiabilidad y disponibilidad suele ignorarse y malinterpretarse. Alta disponibilidad y alta


confiabilidad a menudo van de la m ano, pero no son trminos que puedan utilizarse indistintamente.

Confiabilidad es la capacidad de un sistema o componente para desempear las funciones


requeridas en las condiciones establecidas por un determinado perodo de tiempo [IEEE 90].

En otras palabras, es la probabilidad de que un sistema o componente realice las funciones en forma
satisfactoria durante el tiempo que dure la misin especificada, sin presentar anomalas. La misin de una
aeronave es un ejemplo perfecto para ilustrar este concepto. Cuando una aeronave despega para cumplir
su misin, se tiene en cuenta un objetivo: completar el vuelo, segn lo planeado, en forma segura (sin
fallas catastrficas).

Disponibilidad, por otra parte, es el grado de funcionalidad y accesibilidad que presenta el sistema
o componente cuando se lo necesita [IEEE 90].

Puede pensarse como la probabilidad de que el componente o sistema est en condiciones para cumplir
con la funcin requerida en determinadas circunstancias y en determinado momento de un pero do. La
disponibilidad est determinada por la confiabilidad de un sistema y tambin por el tiempo de
recuperacin ante una falla. Cuando los sistemas funcionan constantemente por perodos prolongados
(por ejemplo, un centro de datos de 10 aos), las fallas son inevitables. Suele contemplarse la
disponibilidad porque, al producirse una falla, la variable crtica pasa a ser la rapidez con la que el sistema
pueda recuperarse. En el ejemplo del centro de datos, contar con un diseo de sistemas confiable es la
variable ms crtica pero, al producirse una falla, el factor ms importante debe ser que los equipos
informticos y los procesos de la empresa se reactiven y funcionen lo ms pronto posible para reducir al
mnimo el tiempo de inactividad.

El MTBF o Tiempo medio entre fallas constituye una medicin fundamental de la confiabilidad de un
sistema. Suele expresarse en unidades de horas. A mayor valor de MTBF, mayor confiabilidad presenta el
producto. La ecuacin 1 ilustra esta relacin.

Confiabilidad = e

Tiempo

MTBF

Ecuacin 1

Unos de los errores ms habituales acerca del MTBF es pensar que equivale a la cantidad de horas que
se espera que funcione el sistema antes de que falle, tambin denominada vida operativa. Sin embargo,
no es extrao ver valores de MTBF en el orden de los millones de horas, y sera poco razonable pensar que
el sistema podra funcionar constantemente por ms de 100 aos sin presentar una falla. La razn por la
que estos nmeros suelen ser tan altos es porque se basan en la tasa de fallas del producto mientras an
2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilizacin, reproduccin, fotocopiado,
transmisin o almacenamiento parcial o total de esta publicacin, en cualquier sistema de recuperacin de cualquier tipo, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-0

est en el perodo de vida til o vida normal, y se presupone que continuar con esta tasa por siempre.
Sin embargo, en esta etapa de la vida, el producto experimenta la menor (y constante) tasa de fallas. En
realidad, los modos de deterioro del producto limitaran la vida mucho antes que lo que expresa la cifra de
MTBF. Por lo tanto, no debe hacerse una correlacin directa entre la vida operativa de un producto y la tasa
de fallas o MTBF. Es muy factible encontrar productos con un alto grado de confiabilidad (MTBF) y un bajo
nivel de vida operativa. Como ejemplo, pensemos en un ser humano:
Se constituye una muestra poblacional con 500.000 seres humanos de 25 aos
de edad.
En el curso de un ao, se recaban datos sobre las fallas (muertes) de esa
poblacin.
La vida operativa de esa poblacin es de 500.000 x 1 ao = 500.000 personas/
ao.
A lo largo del ao, fallaron (murieron) 625 personas.
La tasa de fallas es de 625 fallas / 500.000 personas/ ao = 0,125%/ ao.
El MTBF es la relacin inversa a la tasa de fallas o 1/0,00125 = 800 aos.
Si bien los seres humanos de 25 aos presentan valores de MTBF altos, la
expectativa de vida (vida operativa) es mucho ms corta y no existe una
correlacin.

La realidad es que los seres humanos no presentan tasas de fallas constantes. A medida que la gente
envejece, se producen ms fallas (se deterioran). Por lo tanto, la nica manera real de computar un valor
de MTBF que equivalga a la vida operativa sera esperar que toda la muestra poblacional de personas de
25 aos llegara al trmino de la vida. De ese modo, podra calcularse un promedio de es tos intervalos de
vida. La mayora concordara que el valor rondara entre los 75 y 80 aos.

Por eso, cul es el MTBF de las personas de 25 aos? 80 u 800? Los dos valores! Pero como podra la
misma poblacin presentar dos valores de MTBF tan dispares? Todo se debe a los supuestos.

Si el MTBF de 80 aos refleja con mayor precisin la vida del producto (humanos, en este caso), es el
mejor mtodo? Es evidente que es ms intuitivo. Sin embargo, existen muchas variables que limitan el
sentido prctico de utilizar este mtodo con productos comerciales como los sistemas UPS. La mayor
limitacin es el tiempo. Para poder hacerlo, toda la muestra poblacional debera fallar y, en el caso de
muchos productos, estaramos hablando de un uso de 10 o 15 aos. Adems, aun si fuera razonable
esperar este perodo de tiempo antes de calcular el MTBF, habra problemas para rastrear los productos.
Por ejemplo, cmo sabra el fabricante si los productos siguen en servicio, si estn fuera de servicio y
nunca se lo han info rmado?

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilizacin, reproduccin, fotocopiado,
transmisin o almacenamiento parcial o total de esta publicacin, en cualquier sistema de recuperacin de cualquier tipo, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-0

Por ltimo, incluso si todo esto fuera posible, la tecnologa avanza a tal velocidad que, en el momento en
que se pudiera calcular el valor, ya no tendra utilidad alguna. Quin querra el valor de MTBF de un
producto que ya ha sido reemplazado por varias generaciones de actualizaciones tecnolgicas?

MTTR, o tiempo medio de reparacin (o recuperacin), es el tiempo que se espera que un sistema tarde
en recuperarse ante una falla. Este valor puede incluir el tiempo necesario para diagnosticar el problema,
para que el tcnico se acerque a la instalacin y para reparar fsicamente el sistema. Al igual que el MTBF,
el MTTR se expresa en unidades de horas. Como puede apreciarse en la ecuacin 2, el MTTR incide en la
disponibilidad, pero no en la confi abilidad. A mayor MTTR, peor es el sistema. Para simplificar, si un
sistema tarda ms en recuperarse ante una falla, tendr menor disponibilidad. La frmula que se detalla a
continuacin ilustra cmo la disponibilidad general de un sistema se ve afectada tanto por el MTBF como
por el MTTR. Si aumenta el MTBF, aumenta la disponibilidad. Si aumenta el MTTR, disminuye la
disponibilidad.

Disponibilidad =

MTBF
( MTBF + MTTR)

Ecuacin 2

Para que las ecuaciones 1 y 2 sean vlidas, debe partirse de un supuesto bsico al analizar el valor de
MTBF de un sistema. A diferencia de los sistemas mecnicos, muchsimos de los sistemas electrnicos
no estn compuestos por partes mviles. Como consecuencia, suele aceptarse que los componentes o
sistemas electrnicos presentan tasas de fa llas constantes durante la vida til operativa. La figura 1,
denominada curva en forma de baera de la tasa de fallas, ilustra el origen de este supuesto de que la
tasa de fallas es constante, segn ya se mencion. El "perodo operativo normal" o perodo de vida til" de
esta curva es la etapa en la que un producto est en uso concreto. Entonces se mide la calidad del
producto con respecto a una tasa de fallas constante en relacin con el tiempo. En esta etapa el origen de
las fallas puede incluir defectos no detectables, bajos factores de seguridad en el diseo, tensin aleatoria
mayor de la esperada, factores humanos y fallas naturales. Con perodos holgados para pruebas de
envejecimiento de componentes por parte de los fabricantes, el mantenimiento adecuado y el reemplazo
proactivo de partes desgastadas, debera evitarse el tipo de curva rpida de deterioro que representa el
"perodo de desgaste". El anlisis anterior brinda un panorama de los conceptos y las diferencias entre
confiabilidad y disponibilidad, y permite la interpretacin adecuada del valor de MTBF. En la siguiente
seccin, se analizan los distintos mtodos de prediccin del MTBF.

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilizacin, reproduccin, fotocopiado,
transmisin o almacenamiento parcial o total de esta publicacin, en cualquier sistema de recuperacin de cualquier tipo, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-0

Figura 1 Curva en forma de baera que ilustra la tasa de fallas constante


Perodo
anticipado
de fallas

Perodo operativo
normal

Perodo
de
desgaste

Tasa
de
fallas

Zona de tasa de fallas


constante
0

Tiempo

Mtodos de prediccin y clculo de valores de MTBF


A menudo los trminos prediccin y clculo se utilizan indistintamente; sin embargo, no es correcto. Los
mtodos que predicen el MTBF calculan un valor basado nicamente en un diseo de sistema, en general,
realizado previamente en el ciclo vital del producto. Los mtodos de prediccin tienen utilidad cuando los
datos concretos son escasos o inexistentes, como en el caso del trasbordador espacial o nuevos diseos
de productos. De haber datos concretos suficientes, no deberan aplicarse los mtodos de prediccin. En
vez de estos, habra que recurrir a mtodos que calculan el MTBF porque representan mediciones
concretas de las fallas. Los mtodos que calculan el MTBF estiman un valor basado en una muestra de
sistemas similares observados, en general, realizados despus de que se ha instalado una gran cantidad
de sistemas en entornos concretos. Los mtodos de clculo de MTBF son los ms utilizados para valores
de MTBF, principalmente porque se basan en productos reales que estn sometidos a uso concreto.

Todos estos mtodos son de ndole estadstica, lo cual significa que brindan solo una aproximacin al
verdadero valor de MTBF. Ningn mtodo se estandariza en toda una industria. Por lo tanto, es vital que el
fabricante comprenda y seleccione el mejor mtodo para la aplicacin en cuestin. Los mtodos que se
presentan a continuacin, aunque no constituyen la lista completa, ilustran la amplitud de maneras en que
se puede obtener un valor de MTBF.

Mtodos de prediccin de confiabilidad


Los primeros mtodos de prediccin de confiabilidad surgieron en la dcada de 1940, gracias a un
cientfico alemn de apellido Von Braun y a un matemtico alemn llamado Eric Pieruschka. Mientras
2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilizacin, reproduccin, fotocopiado,
transmisin o almacenamiento parcial o total de esta publicacin, en cualquier sistema de recuperacin de cualquier tipo, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-0

intentaba mejorar diversos problemas de confiabilidad del cohete V-1, Pieruschka asisti a Von Braun en la
confeccin de un modelo de confiabilidad para su cohete y as se cre el primer modelo de confiabilidad
prospectivo moderno que se haya documentado. Luego, con el crecimiento de la industria nuclear, la NASA
aport mayor madurez en el campo del anlisis de confiabilidad. Hoy en da, contamos con numerosos
mtodos para predecir el MTBF.

MIL-HDBK 217
Publicado por el ejrcito estadounidense en 1965, se cre el Manual Militar 217 con el fi n de proporcionar
un estndar para el clculo de la confiabilidad de equipos y sistemas electrnicos militares de modo de
incrementar la confiabilidad de los equipos que se disearan. Sent las bases para comparar la
confiabilidad de dos o ms diseos similares. El Manual Militar 217 tambin se denomina Mil Standard
217 o, simplemente, el 217. Segn el 217, existen dos maneras de predecir la confiabilidad: la Prediccin
por conjuntos y la Prediccin por anlisis del esfuerzo de las partes.

La Prediccin por conjuntos suele utilizarse para predecir la confiabilidad de un producto en una etapa
inicial del ciclo de desarrollo a fin de obtener un clculo de confiabilidad aproximado con respecto al
objetivo o especificacin de confiabilidad. Se calcula una tasa de fallas contando los componentes
similares de un producto (por ejemplo, capacitores) y agrupndolos en los distintos tipos de componentes
(por ejemplo, condensadores de pelcula). Luego, se multiplica la cantidad de componentes de cada
conjunto por una tasa de fallas genrica que se encuentra en el manual 217. Por ltimo, se renen las
tasas de fallas de los distintos conjuntos de componentes para obtener la tasa de fallas final. Por
definicin, este mtodo presupone que todos los componentes estn conectados en serie y requiere que
se calculen en forma separada las tasas de fallas para componentes no conectados en serie.

La Prediccin por anlisis del esfuerzo de las partes suele utilizarse mucho ms tarde en el ciclo de
desarrollo del producto, una vez que el diseo de los circuitos y el hardware estn a punto de entrar en
produccin. Es similar al mtodo por conjuntos, ya que implica una sumatoria de tasas de fallas. Sin
embargo, en este mtodo, la tasa de fallas de cada uno de los componentes se calcula en forma individual
segn los niveles de esfuerzo especficos a los que se someter cada componente (por ejemplo,
humedad, temperatura, vibracin, tensin). Para asignar los niveles de esfuerzo adecuados para cada
componente, deben documentarse y comprenderse a fondo el diseo del producto y el entorno esperado.
El mtodo por esfuerzo suele arrojar una tasa de fallas inferior a la del mtodo por conjuntos. Por el nivel
de anlisis que exige este mtodo, consume mucho tiempo en comparacin con otros.

En la actualidad, rara vez se utiliza el mtodo 217. En 1996, el ejrcito estadounidense anunci que debera
discontinuarse el uso del MIL -HDBK-217, ya que se haba "comprobado que no era confiable y su uso

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilizacin, reproduccin, fotocopiado,
transmisin o almacenamiento parcial o total de esta publicacin, en cualquier sistema de recuperacin de cualquier tipo, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-0

podra arrojar predicciones de confiabilidad errneas y equivocadas"3. El 217 se descart por muchas
razones, la mayora de las cuales estn relacionadas con que la confiabilidad de componentes ha
experimentado grandes mejoras a tal punto que ya no es la causa principal de fallas en los productos. Las
tasas de fallas presentadas en 217 son ms conservadoras (altas) que los componentes comercializados
en la actualidad. Una investigacin minuciosa de las fallas en los productos electrnicos de hoy en da
revelara que las fallas tenderan a producirse por mala aplicacin (error humano), control de procesos o
diseo de producto.

Telcordia
El modelo Telcordia para prediccin de confiabilidad surgi a partir de la industria de las
telecomunicaciones y logra imponerse gracias a una serie de modificaciones en el transcurso de los aos.
En primer lugar, fue desarrollado por Bellcore Communications Research con el nombre de Bellcore como
mtodo para calcular la confiabilidad de los equipos de telecomunicaciones. Si bien Bellcore se basa en el
manual 217, sus modelos de confiabilidad (ecuaciones) se modificaron en 1985 de modo de reflejar el
desempeo real de sus equipos de telecomunicaciones. La ltima versin de Bellcore fue la TR -332 N 6,
de diciembre de 1997. Luego, SAIC adquiri Bellcore en 1997 y lo rebautiz Telcordia. La ltima versin del
Modelo de prediccin Telcordia, SR-332 N 1, se public en mayo de 2001 y ofrece una variedad de
mtodos de clculo, adems de los del 217. En la actualidad, se sigue aplicando el mtodo Telcordia
como herramienta de diseo de productos en esta industria.

HRD5
HRD5 es el Manual de datos de confiabilidad para componentes electrnicos (Handbook for Reliability
Data for Electronic Components) que se utiliza en sistemas de telecomunicaciones. Fue desarrollado por
British Telecom y se usa principalmente en el Reino Unido. Es parecido al 217 pero no abarca tantas
variables ambientales y confecciona un modelo de prediccin de confiabilidad que contempla una amplia
variedad de componentes electrnicos, entre ellos, los de telecomunicaciones.

RBD (diagrama de bloques de confiabilidad)


El diagrama de bloques de confiabilidad o RBD es una herramienta de clculo y de esquema
representativo utilizada para confeccionar modelos de confiabilidad y disponibilidad para sistemas. La
estructura de un diagrama de bloques de confiabilidad define la interaccin lgica de las fallas dentro de
un sistema y no necesariamente la conexin lgica o fsica entre ellas. Cada bloque puede representar un
componente individual, un subsistema u otra falla representativa. El diagrama puede representar todo un
sistema o cualquier subconjunto o combinacin del sistema que requiera un anlisis de fallas,
confiabilidad o disponibilidad. Tambin puede servir como herramienta de anlisis para revelar el

Cushing, M., Krolewski, J., Stadterman, T., y Hum, B., 1996, "U.S. Army Reliability Standardization
Improvement Policy and Its Impact", IEEE Transactions on Components, Packaging, and Manufacturing
Technology, Parte A, Vol. 19, N 2, pp. 277-278
2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilizacin, reproduccin, fotocopiado,
transmisin o almacenamiento parcial o total de esta publicacin, en cualquier sistema de recuperacin de cualquier tipo, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-0

10

funcionamiento de cada elemento del sistema o el modo en que cada elemento puede afectar el
funcionamiento del sistema en su conjunto.

Modelo de Markov
El mtodo de confeccin de modelos de Markov brinda la capacidad de analizar sistemas complejos, como
las arquitecturas e lctricas. Los modelos de Markov tambin se conocen como diagramas de espacioestado o grficos de estado. El espacio-estado se define como un conjunto de todos los estados en los
que puede encontrase un sistema. A diferencia de los diagramas de bloques, l os grficos de estado
proporcionan una representacin ms precisa del sistema. El uso de grficos de estado tiene en cuenta
las relaciones entre fallas de componentes y tambin diversos estados que los diagramas de bloques no
pueden representar, por ejemplo, el estado de una unidad UPS cuando funciona a batera. Adems del
valor de MTBF, los modelos de Markov brindan una variedad de otras mediciones de los sistemas, entre
ellas, la disponibilidad, el valor de MTTR, la probabilidad de encontrarse en algn es tado determinado en
determinado momento y muchas otras.

FMEA / FMECA
El FMEA (anlisis de modo de fallas y consecuencias) es un proceso utilizado para analizar los modos de
fallas de un producto. Luego se usa esta informacin para determinar el impacto que tendra cada falla en
el producto, y as se logra un mejor diseo de producto. El anlisis puede trascender esta funcin y asignar
un nivel de gravedad a cada modo de falla. En este caso, se lo denomina FMECA (anlisis de modo de
falla, consecuencias y nivel de gravedad). El FMEA se construye desde abajo hacia arriba. Por ejemplo, en
el caso de un sistema UPS, el anlisis parte del nivel de placas de circuitos y asciende hasta completar
todo el sistema. Adems del uso como herramienta de diseo de productos, puede servir para calcular la
confiabilidad general del sistema. Puede resultar difcil obtener los datos de probabilidad de los distintos
componentes de los equipos, necesarios para los clculos, en especial si se presentan en diversos
estados o modos operativos.

rbol de fallas
El anlisis de rbol de fallas es una tcnica que desarroll Bell Telephone Laboratories para realizar
evaluaciones de seguridad del Sistema de control de lanzamiento de misiles Minuteman. Despus se
aplic al anlisis de confiabilidad. Los rboles de fallas pueden ser tiles para detallar la va de una
circunstancia, ya sea en casos normales como de fallas, que derivan en una falla de los componentes o
evento no deseado que est en investigacin (desde abajo hacia arriba). La confiabilidad se calcula
convirtiendo un rbol de fallas completo en un grupo de ecuaciones equivalentes. Se logra mediante la
aplicacin del lgebra de eventos, que tambin se denomina lgebra booleana. Como el FMEA, los datos
probabilsticos para los clculos pueden resultar difciles de obtener.

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilizacin, reproduccin, fotocopiado,
transmisin o almacenamiento parcial o total de esta publicacin, en cualquier sistema de recuperacin de cualquier tipo, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-0

11

HALT
La tcnica de prueba de vida acelerada (HALT) es un mtodo utilizado para incrementar la confiabilidad
general de un diseo de producto. Tambin se utiliza para establecer cunto tarda un producto en alcanzar
el punto de quiebre, sometindolo a esfuerzos cuidadosamente medidos y controlados, como temperatura
y vibracin. Se vale de un modelo matemtico para calcular la cantidad de tiempo real que el producto
tardara en fallar en el uso concreto. Si bien HALT sirve para calcular el valor de MTBF, la funcin principal
es mejorar la confiabilidad de diseos de producto.

Mtodos para el clculo de confiabilidad


Mtodo de prediccin por elementos similares
Este mtodo ofrece un medio rpido para calcular la confiabilidad basado en datos histricos de
confiabilidad de un elemento similar. La eficacia de este mtodo depende mayormente de la similitud entre
el equipo nuevo y el existente, del cual se tienen datos concretos. Debe existir similitud entre los procesos
de fabricacin, entornos operativos, funciones y diseos de los productos. En productos que evolucionan
con el tiempo, este mtodo de produccin es especialmente til ya que aprovecha la experiencia concreta
del pasado. Sin embargo, deben investigarse con sumo cuidado las diferencias y quedar reflejadas en la
prediccin final.

Mtodo de medicin de datos concretos


Este mtodo se basa en la experiencia real de los productos. Quiz sea el ms utilizado por los
fabricantes, ya que es parte integral del programa de control de calidad de la fbrica. Estos programas
suelen denominarse Gestin de crecimiento de confiabilidad. Al rastrear la tasa de fallas de productos en
uso concreto, los fabricantes pueden identificar y solucionar rpidamente los problemas e ir e liminando
defectos de los productos. Dado que se basa en fallas concretas, este mtodo contempla modos de falla
que los mtodos de prediccin suelen excluir. El mtodo consiste en rastrear una muestra poblacional de
nuevos productos y reunir los datos de l as fallas. Una vez recabados estos datos, se calculan los valores
de MTBF y la tasa de fallas. La tasa de fallas es el porcentaje de una poblacin de unidades que se espera
que "fallen" en un ao calendario. Adems de utilizar estos datos para control de calidad, tambin se usan
para brindar a clientes y vendedores informacin acerca de la confiabilidad del producto y los procesos de
calidad. Al emplearse tanto entre los fabricantes, sirven de base para comparar valores de MTBF. Estas
comparaciones permiten que los usuarios evalen las diferencias de confiabilidad relativa entre productos,
lo cual ofrece una herramienta para la toma de decisiones de compra o determinacin de
especificaciones. Como en toda comparacin, es fundamental que las variables crticas sean las mismas
en todos los sistemas que se comparen. De lo contrario, es probable que se tomen decisiones
equivocadas que podran provocar un impacto econmico negativo. Si desea ms informacin sobre
comparacin de valores relativos de MTBF, consulte el Informe interno N 112 de APC, Comparaciones
eficaces de valores MTBF para infraestructuras de centros de datos.
2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilizacin, reproduccin, fotocopiado,
transmisin o almacenamiento parcial o total de esta publicacin, en cualquier sistema de recuperacin de cualquier tipo, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-0

12

Conclusiones
MTBF es una sigla de moda que se acostumbra utilizar en la industria informtica. Se publican cifras sin
comprender qu expresan en realidad. Si bien el MTBF es un indicador de confiabilidad, no representa la
vida operativa que se espera de un producto. Por ltimo, los valores de MTBF carecen de sentido sin una
definicin de falla y con supuestos poco razonables o ausentes.

Referencias
1.

Pecht, M.G., Nash, F.R., Predicting the Reliability of Electronic Equipment, Proceedings of the IEEE,
Vol. 82, N 7, julio de 1994

2.

Leonard, C., MIL-HDBK-217: Its Time to Rethink It, Electronic Design, 24 de octubre de 1991

3.

http://www.markov-model.com

4.

MIL-HDBK-338B, Electronic Reliability Design Handbook , 1 de octubre de 1998

5.

IEEE 90 Institute of Electrical and Electronics Engineers, IEEE Standard Computer Dictionary: A
Compilation of IEEE Standard Computer Glossaries. New York, NY: 1990

Acerca de los autores:


Wendy Torell es Ingeniero en Disponibilidad en la planta de APC en W. Kingston, Rodhe Island. Brinda
asesoramiento a los clientes respecto de los enfoques cientficos sobre disponibilidad y prcticas de
diseo para optimizar la disponibilidad de los entornos de los centros de datos. Recibi el ttulo de
Bachelor en Ingeniera Mecnica del Union College, en Schenectady, NY. Wendy cuenta con una
certificacin de la ASQ en el campo de la ingeniera en confiabilidad.

Victor Avelar es Ingeniero en Disponibilidad en APC. Es el responsable de proveer asesoramiento y


anlisis sobre la disponibilidad para las arquitecturas elctricas y el diseo de los centros de datos de los
clientes. Victor recibi el ttulo de Bachelor en Ingeniera Mecnica del Rensselaer Polytechnic Institute en
1995 y es miembro de ASHRAE y la American Society for Quality.

2004 de American Power Conversion. Todos los derechos reservados. Queda prohibida la utilizacin, reproduccin, fotocopiado,
transmisin o almacenamiento parcial o total de esta publicacin, en cualquier sistema de recuperacin de cualquier tipo, sin el
consentimiento escrito del titular del derecho de autor. www.apc.com
Rev 2004-0

13

También podría gustarte