Está en la página 1de 36

RCA “Análisis de Causa Raíz como

Negocio” Root Cause Analysis for


Business RCA “Análisis de Causa
Raíz como Negocio” Root Cause
Analysis for Business RCA “Análisis
de Causa Raíz como Negocio” Root
Cause Analysis for Business RCA
“Análisis de Causa Raíz como
Negocio” Root Cause Analysis for
Business RCA “Análisis de Causa
Raíz como Negocio” Root Cause
Analysis for Business RCA “Análisis
de Causa Raíz como Negocio” Root
Cause Analysis for Business RCA
“Análisis de Causa Raíz como
Negocio” Root Cause Analysis for
Business RCA “Análisis de Causa
Raíz como Negocio” Root Cause
Analysis for Business RCA “Análisis
de Causa Raíz como Negocio” Root
RCA “Análisis de
Causa Raíz como
Negocio”
Root Cause Analysis for Business
Luis Amendola, Ph.D

RCA “Análisis de Causa Raíz


como Negocio”
Root Cause Analysis for Business Integration

PMM Institute for Learning


Valencia-España
© Dr. Luis José Amendola © 2014. Ediciones PMM Institute for Learning
Depósito legal: V-1850-2014 ISBN: 978-84-940628-6-5
Impreso en España Imprime: imprenta-llorens.es.
Dime y lo olvido, enséñame y lo recuerdo, involúcrame y lo aprendo.
Benjamin Franklin (1706-1790)
Estadista y científico estadounidense.

“No os quedéis estancados. Todo, absolutamente todo, se puede


mejorar. Nadie sabe en qué dirección, o en qué sentido, pero si
continuas quejándote y conformándote, te será muy difícil ser
innovador o creativo”
Guy Kawasaki
CONTENIDO

INTRODUCCIÓN 11

Fundamentos de Confiabilidad 15

Indicadores Técnicos de Mantenimiento y Confiabilidad 37

Balanced Scorecard Maintenance 51

Fundamentos de “Análisis Causa Raíz”. ACR 85

Metodología de Implementación. ACR 97

Casos prácticos. ACR 121

Error humano. ACR 131

REFERENCIAS 159
INTRODUCCIÓN

Las palabras populares de hoy para solucionar problemas son el


Análisis de la Causa de la Raíz, aunque ha existido por lo menos por
40 años y, en un sentido menos formal, mucho más tiempo que eso.
Las causas de la raíz son las causas donde las soluciones actúan
sobre ellas quitándolas, cambiándolas, o controlándolas para que no
se repitan el problema.

Con estas palabras populares, se ha creado un gran mito. Cuando


primero me involucre en la industria de Oil & Gas desde técnico
industrial de mantenimiento hasta ocupar la dirección de la industria,
para solucionar problemas, me introdujeron a todos los diferentes
métodos. Tomé varias clases de entrenamiento, leí los pocos libros
disponibles, hablé con los expertos de la industria, e intenté
implementar los varios esquemas y herramientas de ejecución.

Cuando intenté aplicar estos métodos, no me ayudaron a solucionar


mis problemas basados en los acontecimientos, más que mis
instintos naturales. Miré más de cerca los métodos e intenté separar
las piezas que funcionaban de las piezas que no funcionaban.
Después de unos años comencé a encontrar que algunas cosas
trabajaban mucho mejor que otras. Al final descubrí el Mito y Causa
de la Raíz.

El tema principal de todos estos métodos es la búsqueda de la causa


de la raíz; la cosa graciosa sin embargo, es que no hay ninguna
definición aceptada de la causa de la raíz; cada uno hace su propia
definición. Me tomó cerca de diez años de estudiar y de enseñar el
análisis de la causa de la raíz para entender por qué la definición era
tan difícil: centrándose en encontrar la causa de la raíz, presumimos
que hay una.

Esta premisa falsa proviene del pensamiento lineal siguiente: A


causó B, y B causó C, y C causó D, y así atravesamos el alfabeto. A
un cierto punto llegamos a la causa de la raíz de G y puesto que G
causó A podemos eliminar el problema si eliminamos G. Este

11
acercamiento común pero equivocado asume que las relaciones
causales son lineares y que los problemas vienen de una sola fuente.

Quizás ésta es una tendencia antropomorfa basada en el modelo de


la vida, que parece tener un principio y un final. Ésta sola fuente de
un problema se refiere como la causa de la raíz y es generalmente la
base para todas las otras metodologías del análisis de la causa de la
raíz.

Durante mi recorrido cada año por empresas en Europa,


Iberoamérica & USA, observo que la industria gasta millones de
euros en la gestión de sus activos en las plantas y sus operaciones.
Un 80% de este dinero se gasta en corregir fallos crónicos en las
máquinas y sistemas así como errores humanos. Esto está pasando
a toda hora y en toda clase de industrias.

Si se eliminaran estos fallos crónicos se podría reducir el coste de


operaciones y mantenimiento entre un 40% y un 60%. Estos ahorros
que alcanzarían millones de euros cada año, se pueden realizar sin
necesidad de grandes reestructuraciones internas, o despidos de
gente o sacrificios en la calidad del producto. Lo que sí se necesita
es cambiar las actitudes y la forma de pensar en relación a los
procedimientos aplicados en la gestión integrada de activos.
Nosotros, desde nuestros instituto PMM Institute for Learning en
Europa & América, hemos alcanzado grandes metas trabajando en
equipo con operarios, técnicos, ingenieros y directivos para lograrlo
y sostenerlo.

Pese al intento de la industria de reinventar el lugar de trabajo


mediante una larga lista de técnicas gerenciales, millones de
trabajadores llegan a la planta a desempeñar su labor diaria de la
misma forma en que lo hicieron hace una semana o hace un año.

Estos hombres y mujeres son quienes mantienen las plantas en


funcionamiento, su trabajo es vital para la eficiencia y la
productividad, sin embargo se pasan una gran parte de su tiempo
corrigiendo desviaciones del proceso normal y arreglando fallos

12
crónicos que se han convertido en rutina normal. Con frecuencia
desperdician también su tiempo cumpliendo con requerimientos,
informes y procesos administrativos que están en desuso.

Esta pérdida de recursos corporativos se debe en gran parte a la


aceptación o tolerancia de esas rutinas equivocadas. Es un
paradigma de auto-limitación que establece absurdos conceptos
como: "Las máquinas se descomponen", "La gente comete
errores", "Los sistemas fallan". Se acepta porque así ha sido
desde hace mucho tiempo. Se deben dejar atrás estas creencias
obsoletas y comenzar a eliminar fallos innecesarios e injustificados,
de manera que la gerencia pueda incrementar la productividad,
reducir tiempos perdidos y aumentar drásticamente las utilidades
para beneficio de todos. Con un modelo estratégico de gestión el cual
ustedes diseñaron con nosotros y que están poniendo en marcha
para su empresa es la solución del presente y futuro.

NO DEJES AL AZAR LA GESTIÓN DE TUS ACTIVOS


“Un equilibrio entre el factor humano, organización, métodos,
técnicas e indicadores.”

Luis Amendola, Ph.D


Mayo, 2014

13
Fundamentos de
Confiabilidad
ANÁLISIS DE FALLAS. ESTÁNDAR ISO 14224

El estándar internacional ISO 14224 ha sido preparado en base al


“know how” y la experiencia adquirida a través del proyecto OREDA
(Offshore REliability DAta) ha sido ejecutada
por la mayoría de las compañías petroleras
desde principios de los años 80 hasta nuestros
días. Durante estos años, una gran cantidad de información se ha
recolectado y se ha acumulado un conocimiento substancial en la
recolección de información de confiabilidad.

En la industria petrolera y de gas natural, se ha prestado gran


atención a la seguridad, confiabilidad y mantenibilidad de los equipos.
Varios análisis son usados para estimar los riesgos de peligrosidad,
contaminación o daños de los equipos. Para dichos análisis, la
Información de Confiabilidad y Mantenimiento (Reliability and
Maintenance (RM)) es vital.

Mayor énfasis recientemente ha recibido el diseño costo – eficacia y


el mantenimiento de nuevas plantas e instalaciones existentes. En
este aspecto la información sobre falla, mecanismos de falla y
mantenimiento ha ganado mayor importancia.

La recolección de información es una inversión. Por facilidad y


estandarización de los sistemas de gestión de la información, que
permiten la recolección y transferencia de la información, la calidad
puede ser mejorada. Una forma óptima de garantizar los resultados
de esta inversión y maximizar de forma efectiva la cantidad y el tipo
de la información es gracias a la cooperación de la industria. Para
hacer posible la recolección, intercambio y el
análisis de la información en un contexto común,
es necesario un estándar.

Este estándar internacional muestra


recomendaciones a la industria petrolera y de gas
natural en la especificación y ejecución de
recolección de información RM, tanto como un

17
ejercicio aislado y como una cultura diaria de recolección de
información histórica en gestión de sistemas de mantenimiento.

ALCANCE

Este estándar internacional provee unas bases comprensibles para


la recolección de información de mantenimiento y confiabilidad (RM)
en un formato estándar en las áreas de perforación, producción,
refinación y transporte por tubería de petróleo y gas natural.

Además, presenta lineamientos para la especificación, recolección y


aseguramiento de la calidad de la información RM, facilitando la
recolección de información RM.

Gracias al análisis de la información se pueden determinar


parámetros de confiabilidad para ser usados en diseño, operación y
mantenimiento.

OBJETIVOS DEL ESTÁNDAR ISO 14224

Especificar la información a recolectar para análisis de:

− Diseño y configuración de sistemas.


− Seguridad, confiabilidad y disponibilidad de
sistemas y plantas.
− Costo de ciclo de vida.
− Planeación, optimización y ejecución de
mantenimiento.

Especificar la información en un formato estandarizado para:

− Permitir el intercambio de información RM entre plantas,


dueños, fabricantes y contratistas.
− Asegurar que la información RM es de la calidad necesaria para
los análisis propuestos.

18
TÉRMINOS Y DEFINICIONES

Para los propósitos de este estándar internacional, aplican los


siguientes términos y definiciones.

• Falla. Finalización de la habilidad de un elemento de


desempeñar una función requerida.
Estado de un elemento caracterizado por la inhabilidad de
desempeñar una función requerida, excluyendo la incapacidad
durante mantenimiento preventivo u otras acciones planeadas,
o a causa de la falta de recursos externos.

• Falla crítica. Falla en un equipo, la cual causa el cese


inmediato de la capacidad para ejecutar una función requerida.

• Falla no critica. Falla en una unidad de equipo que no


ocasiona el cese inmediato de la habilidad para desempeñar
una función requerida.

• Causa de Falla. Circunstancia durante el diseño, manufactura


o el uso que conlleva a la falla.

• Descripción de la falla. Causa de la falla aparente u


observable.

• Modo de falla. Modo observable de la falla

• Elemento. Cualquier parte, componente, dispositivo,


subsistema, unidad funcional, equipo o sistema que se pueda
considerar individualmente.

• Desempeño. Habilidad de un elemento para desempeñar una


función requerida, bajo unas condiciones establecidas, durante
un intervalo de tiempo determinado.

19
• Función requerida. Función o conjunto de funciones, de un
elemento que se considera necesaria para proveer un servicio
específico.

• Grado de severidad. Efecto en la función de una unidad de


equipo.

• RCA “Análisis de Causa Raíz”. Son las siglas de Análisis


Causa Raíz. Es una metodología disciplinada que permite
identificar las causas físicas, humanas y latentes de cualquier
tipo de falla o incidente que ocurren una o varias veces
permitiendo adoptar las acciones correctivas que reducen los
costos del ciclo de vida útil del proceso, mejora la seguridad y
la confiabilidad del negocio, permitiendo así cumplir con el
estándar Asset Management PAS-55 – ISO 55000.

• Causa Raíz Física. La circunstancia durante el diseño, la


manufactura o el uso que conlleva a una falla (ISO 14224),
típicamente es la última causa que dispara o genera la falla o
el evento. Típicamente está asociado a un componente. Al
limitar el Análisis Causa Raíz hasta la causa física se llamaría
un Análisis de Falla.

• Causa Raíz Humana. La circunstancia durante el diseño, la


manufactura o el uso que conlleva a una
falla (ISO 14224), típicamente está
relacionada a la intervención
inapropiada del ser humano que
ocasiona otra causa humana debido a
una omisión, un cambio o/y a un error y
luego esta afecta al componente o una
causa física. Al limitar el análisis causa raíz hasta la causa
humana se llamaría una cacería de brujas para la búsqueda de
culpables.

20
• Causa Raíz Latente: (Organizacional). La circunstancia
durante el diseño, la manufactura o el uso que conlleva a una
falla (ISO 14224), típicamente está relacionada a las
deficiencias, debilidades u oportunidades que tiene en una
organización un proceso, que conlleva o permite que la
inapropiada acción del ser humano ocasione otra causa
humana y luego esta se representa en una causa física o de un
componente.

Solo la erradicación de causa latente garantizará que la falla no


se repita en el equipo estudiado o en uno similar. Se basa en
que el origen de todos los problemas son las decisiones u
omisiones del personal Supervisor o de la Gerencia. Ej.: La
consideración de riesgo, ausencia de adiestramiento,
incumplimiento prácticas, procedimientos inadecuados, GDC
(Gerencia del Cambio) no realizado o incompleto (falta de
actualización de la información), entre otros.

• Árbol Lógico: (Logic Tree). Es una herramienta utilizada en el


cuarto paso del método ACR PROACT para ordenar
gráficamente el análisis. Es la secuencia lógica del cómo se
relacionan cada una de las causa latentes, humanas, físicas,
los modos de fallas y el evento.

El tope del árbol es el evento y su(s) modo(s) de falla(s)


ocurrido(s). Se le relacionan las causas físicas, humanas y
latentes a través de las siguientes
preguntas, ¿Cómo puede? o ¿Por
qué pueden ocurrir el modo o la(s)
causa(s) física(s), la(s) causa(s)
humana(s) o la(s) latente(s)?, en
muchos casos las causas son
condicionadas a través de
compuertas lógicas.

21
El Árbol Lógico también permite hacer la representación lógica
de forma inductiva o probabilística y al combinarle la lógica
booleana permite calcular la confiabilidad de los sistemas
representados.

• Hipótesis. Es una conjetura o suposición que se admite


provisionalmente para ser verificada o validada y si el resultado
es verdadero, la misma se convierte en una causa y si es al
contrario simplemente es desechada la conjetura.

• Patrocinador o Sponsor. Es aquel Gerente de cada área


operacional (Gerencias de Producción, Mantenimiento,
Recursos Humanos, Servicios, etc.) que promueve y motiva
iniciativas y programas referentes a análisis causa raíz que se
ejecutan en áreas bajo su responsabilidad.

• Facilitador. Es el trabajador con alto dominio o conocimientos


en la metodología ACR de cada organización y su función será
la de facilitar las sesiones de análisis. Estos deben tener
adiestramiento en la Metodología ACR.

• Líder. El líder del equipo es una persona con


ascendencia/liderazgo sobre la falla detectada en dicha área.
Los líderes guían a un equipo a través del proceso y ayudan a
desarrollar en el sitio de trabajo una
mentalidad de búsqueda de las
verdaderas causas raíces de los
problemas. Estos programan reuniones,
asigna a un miembro del Equipo la tarea
de registrar el Análisis. Este será del área
de la falla detectada.

22
• Equipo de ACR. El equipo típico de ACR está comprendido por
un Líder de Equipo, un Facilitador, personal de Operaciones,
Ingeniero de Procesos, personal de Mantenimiento y personal
experto en la materia de análisis.
Los miembros del equipo deben ser
imparciales y necesitan estar
enfocados en hallar la(s) causa(s)
raíz (ces) latente(s) o asociadas a la
organización. Se recomienda un
equipo de mínimo 5 personas y
máximo 7 personas. Es importante anexar a este equipo
personal que esté directamente relacionado con las fallas que
se estén analizando. Entre éstos pueden citarse Operadores y
Mantenedores.

CALIDAD DE LA INFORMACIÓN PARA EL ANÁLISIS

La confianza en la información RM recolectada y por ende en


cualquier análisis, depende en gran manera de la calidad de la
información. La información de alta calidad se caracteriza por:

• Lo completo de la información en relación a las


especificaciones.
• El cumplimiento de las definiciones de parámetros de
confiabilidad, formatos y tipos de datos.
• El correcto ingreso, transferencia, manejo y almacenamiento
de la información (manual o electrónica).
• Lineamientos para obtener datos de calidad.

Para obtener datos de alta calidad, se debe enfatizar en las


siguientes medidas antes de iniciar el proceso de recolección de
información:

• Investigar las fuentes de información para asegurar que la


información almacenada requerida y la información operacional
es completa.

23
• Definir el objetivo para recolectar información para que los
datos que se recaben sean relevantes para el uso especificado.
Ejemplos de análisis en los cuales puede ser usada dicha
información: Análisis cuantitativo de Riesgo (QRA), Análisis de
Disponibilidad y mantenibilidad por confiabilidad (RAM),
Mantenimiento centrado en confiabilidad (RCM), Costo de ciclo
de vida (LCC).
• Verificar las fuentes de información para asegurar que se
dispone de información relevante de la suficiente calidad.
• Identificar la fecha de instalación, población y periodo(s) de
operación de los equipos a los cuales se les tomará la
información.
• Se recomienda realizar un ejercicio piloto con los métodos y las
herramientas de recolección de datos para verificar la
factibilidad de los procedimientos de recolección de
información a ejecutar.
• Preparar un plan para el proceso de la recolección de datos, ej.
cronogramas, hitos, secuenciamiento y número de unidades de
equipos, periodos de tiempos a cubrir, etc.
• Entrenar, motivar y organizar el personal encargado de la
recolección de los datos.
• Planear el aseguramiento de la calidad para el proceso de
recolección de la información. Esto como mínimo debe incluir
procedimientos para el almacenamiento y el control de la
información y el corregimiento de las desviaciones.
• Durante y después del ejercicio de recolección, se debe
analizar la información para verificar la consistencia, la
distribución razonable y la correcta interpretación. El proceso
de control de calidad debe ser documentado.
Al combinarse bases de datos individuales
es necesario que cada dato almacenado
tenga una identificación única.

24
INFORMACIÓN DE EQUIPOS Y FALLAS

Estructura de la Base de Datos

La clasificación de los equipos en parámetros técnicos,


operacionales y ambientales son la base de la recolección de
información RM. Esta información también es necesaria para
determinar si los datos son apropiados o válidos para diferentes
aplicaciones. Hay cierta información que es común a todas las clases
de equipos y ciertos datos que es específica para cada clase de
equipos.

Datos de falla

Una definición unificada de falla y un método de clasificar las fallas


son esenciales cuando datos de diferentes fuentes (plantas y
operarios) deben ser registrados en una base de datos RM común.

Un reporte común para todas las clases de equipos debe ser


empleado para registrar datos de falla.

Lista de chequeo de Control de Calidad

Se debe ejecutar un proceso de control de calidad por parte del


recolector de la información por cada nueva instalación y debe ser
documentada en el formato adecuado. El auto chequeo debe ser una
actividad continua durante la planeación y la ejecución del proceso
de recolección de datos y puede dividirse en dos fases principales:

Antes que la recolección de datos comience:

• ¿Están preparados y aprobados los planes de recolección de


la información?
• ¿Son relevantes las especificaciones de la información para ser
recopilada en sitio? ¿Están los procedimientos de control de
calidad de la información disponibles y entendidos por el
personal involucrado en recolectar los datos?

25
• ¿Se cuenta con los recursos necesarios (personal capacitado,
software, fuentes de datos, etc.)?

Durante y al terminar la recolección de datos:

• ¿Es la información recolectada consistente y de calidad?


• ¿Se encuentran relacionadas las definiciones de fronteras y los
eventos de falla?
• ¿Esta codificada la información y con
anotaciones para el posterior análisis?
• ¿La información fue recopilada solo para
los equipos e intervalos de tiempo
establecidos?
• ¿Se cumplieron los siguientes
procedimientos?
• ¿Se reportaron las desviaciones y los
problemas de interpretación?
• ¿Los requerimientos de seguridad,
almacenamiento, despacho y confidencialidad de la
información son fiables?
• Verificación de la información recolectada.

Las comprobaciones típicas para verificar la calidad de la información


pueden ser:

• Análisis frecuentes para detectar información perdida,


interpretaciones incorrectas, consistencia de la información,
codificación apropiada, distribuciones irregulares.

Requerimientos típicos para la información:

La recolección de datos RM debe ser cuidadosamente planeada para


que los datos recopilados sean consistentes con los fines propuestos.
Hay 5 áreas principales de aplicación de la información RM.

• Desempeño de Alto Resguardo. Confiabilidad de funciones


claves de resguardo.

26
• Optimización de la configuración de Planta. La información
RM precisa para clases de equipo puede ayudar a determinar
apropiadamente los requerimientos de repuestos para una
instalación al conjugar incrementos de costos con un mayor
“throughput” de planta.

• Mantenimiento Centrado en Confiabilidad RCM. Un


mejoramiento de la estrategia de mantenimiento para una
instalación puede llevarse a cabo al analizar información RM
pertinente de la misma instalación.

• Benchmarking. Al recolectar datos RM consistentes, se puede


hacer una comparación entre subgrupos de equipos.

• Análisis de Costo de Ciclo de Vida. Al obtener información


comprensible durante la fase operacional (horas de
mantenimiento, down time) se puede estimar y comparar el
ciclo de costo de vida real.

Dado la gran variedad de diferentes usos de la información RM, se


enfatiza que para cada programa de recolección de información se
debe definir muy bien el nivel apropiado de la información que se
requiere.

Se prevé que la información RM puede usarse


para comparar el desempeño operacional entre
diferentes equipos localizados en diversas
instalaciones y compañías de grupos interesados,
incluyendo dueños, operarios, contratistas,
vendedores, aseguradoras, etc.

TIEMPO MEDIO ENTRE FALLAS (TMEF O MTBF, EN


INGLÉS)

Es un término de confiabilidad que se utiliza con demasiada ligereza


en muchas industrias y en algunas, su uso ya es abusivo. Con el paso
de los años, el significado original de este término fue modificándose

27
y ahora causa confusión y cinismo. En gran medida, el MTBF se basa
en supuestos; por eso, la definición de falla y una mirada atenta a
estos detalles cobran vital importancia para lograr una interpretación
correcta.

¿Qué es una falla? ¿Cuáles son los supuestos?

Estos interrogantes deben responderse de inmediato cuando se


analiza cualquier valor de MTBF. Sin las respuestas a estas
preguntas, el análisis carece prácticamente de valor. Muchas veces
se cita el MTBF sin ofrecer una definición de falla. Esta práctica no
solo induce a errores, sino que carece de utilidad alguna.

Sería similar a promocionar el rendimiento del combustible en un


automóvil expresado en “millas por tanque” sin definir la capacidad
del tanque en litros o galones. Para despejar esta ambigüedad, se
podría argumentar que existen dos definiciones básicas para las
fallas:

1) Finalización de la capacidad de un
producto en su conjunto para realizar
la función requerida.
2) Finalización de la capacidad de
cualquier componente individual para
realizar la función requerida, pero sin
la finalización de la capacidad de un
producto en su conjunto para
funcionar.

28
Figura 1: Patrones de Fallas P-F.

Definición de confiabilidad, disponibilidad, MTBF & MTTR

El MTBF tiene incidencia tanto en la confiabilidad como en la


disponibilidad. Antes de proceder a explicar los métodos de cálculo
del MTBF, es importante tener una idea sólida de estos conceptos.

La diferencia entre confiabilidad y disponibilidad suele ignorarse y


malinterpretarse. Alta disponibilidad y alta confiabilidad a menudo
van de la mano, pero no son términos que puedan utilizarse
indistintamente.

• Confiabilidad es la capacidad de un sistema o componente


para desempeñar las funciones requeridas en las condiciones
establecidas por un determinado período de tiempo.

En otras palabras, es la probabilidad de que un sistema o


componente realice las
funciones en forma satisfactoria
durante el tiempo que dure la
misión especificada, sin

29
presentar anomalías. La misión de una aeronave es un ejemplo
perfecto para ilustrar este concepto. Cuando una aeronave despega
para cumplir su misión, se tiene en cuenta un objetivo: completar el
vuelo, según lo planeado, en forma segura (sin fallas catastróficas).

• Disponibilidad, por otra parte, es el grado de funcionalidad y


accesibilidad que presenta el sistema o componente cuando se
lo necesita.

El MTBF o Tiempo medio entre fallas constituye una medición


fundamental de la confiabilidad de un sistema. Suele expresarse en
unidades de horas. A mayor valor de MTBF, mayor confiabilidad
presenta el producto. Ecuación [1].

−𝑡𝑡
𝐶𝐶 = 𝑒𝑒 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇
Donde:
C: Confiabilidad
t: Periodo considerado
TPPF: Tiempo promedio para fallar

Unos de los errores más habituales acerca del MTBF es pensar que
equivale a la cantidad de horas que se espera que funcione el
sistema antes de que falle, también denominada “vida operativa”.

Sin embargo, no es extraño ver valores de MTBF en el orden de los


millones de horas, y sería poco razonable pensar que el sistema
podría funcionar constantemente por más de
100 años sin presentar una falla. La razón por
la que estos números suelen ser tan altos es
porque se basan en la tasa de fallas del
producto mientras aún está en el período de
“vida útil” o “vida normal”, y se presupone que
continuará con esta tasa por siempre.

Sin embargo, en esta etapa de la vida, el producto experimenta la


menor (y constante) tasa de fallas. En realidad, los modos de
deterioro del producto limitarían la vida mucho antes que lo que

30
expresa la cifra de MTBF. Por lo tanto, no debe hacerse una
correlación directa entre la vida operativa de un producto y la tasa de
fallas o MTBF. Es muy factible encontrar productos con un alto grado
de confiabilidad (MTBF) y un bajo nivel de vida operativa.

En los últimos años ha habido una polémica considerable acerca de


la exactitud de la Utilidad del MTBF (tiempo medio entre fallos).

¿Cómo calcularlo?

Tiempo medio entre fallos (TMEF o MTBF, en inglés) es el tiempo,


en promedio, en el que se espera que una planta falle incluyendo el
tiempo perdido por las reparaciones realizadas. Este es un indicador
alimentado por la confiabilidad y los valores de eficacia y eficiencia
del mantenimiento.

𝑈𝑈𝑈𝑈𝑈𝑈𝑈𝑈𝑈𝑈𝑈𝑈𝑈𝑈𝑈𝑈 ∗ 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂𝑂


𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 𝑜𝑜 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 =
𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹 𝑑𝑑𝑑𝑑 𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹
Donde:
MTBF o TMEF: Tiempo medio entre fallos.
Unidades: tiempo de trabajo.
Periodo Operacional: tiempo de operación fuera de servicio debido a la
falla.
Frecuencia de Fallas: nº de fallos que provoca el periodo operacional.

Ejemplo:

Una planta opera 500 horas


Tiempo de fuera de paradas por fallos: 200 horas (5 fallos)

TMEF = (500+200)/5= 140 horas

Otra forma de calcularlo es anualmente con los datos anuales de


funcionamiento y nº de fallas.

𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 𝑑𝑑𝑑𝑑 𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹


𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 𝑜𝑜 𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇 =
𝑁𝑁ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑑𝑑𝑑𝑑 𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹𝐹
Donde:
MTBF o TMEF: Tiempo medio entre fallos.

31
Tiempo Total de Funcionamiento: tiempo ininterrumpido de
funcionamiento del equipo.
Número de Fallas: nº de fallos del equipo.

Ejemplo A:

Tengo un grupo de 1200 Bombas que en un año presentan 387 fallos.

MTBF = 1200 Bombas x 12 meses / 387 fallos = 37, 20 meses

Ejemplo B:

Tengo una bomba que fallo en un año dos veces

MTBF = 1 Bomba x 12 mese / 2 fallos = 6 meses

Tiempo medio de reparación, o recuperación (MTTR), es el


tiempo que se espera que un sistema tarde en recuperarse ante una
falla. Este valor puede incluir el tiempo necesario para diagnosticar el
problema, para que el técnico se acerque a la instalación y para
reparar físicamente el sistema. Al igual que el MTBF, el MTTR se
expresa en unidades de horas.

Como puede apreciarse en la ecuación [4], el MTTR incide en la


disponibilidad, pero no en la confiabilidad. A mayor MTTR, peor es el
sistema.

𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀
𝐷𝐷 = ∗ 100
𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀 + 𝑀𝑀𝑀𝑀𝑀𝑀𝑀𝑀
Donde:
MTBF: Tiempo medio entre fallos.
MTTR: Tiempo medio de reparación, o recuperación.

Para simplificar, si un sistema tarda más en recuperarse ante una


falla, tendrá menor disponibilidad. La ecuación 4 detalla cómo la
disponibilidad general de un sistema se ve afectada tanto por el
MTBF como por el MTTR. Si aumenta el MTBF, aumenta la
disponibilidad. Si aumenta el MTTR, disminuye la disponibilidad.

32
Para que las ecuación [1] y [4] sean válidas, debe partirse de un
supuesto básico al analizar el valor de MTBF de un sistema. A
diferencia de los sistemas mecánicos, muchísimos de los sistemas
electrónicos no están compuestos por partes móviles. Como
consecuencia, suele aceptarse que los componentes o sistemas
electrónicos presentan tasas de fallas constantes durante la vida útil
operativa. La figura 2 que se presenta líneas abajo, denominada
“curva en forma de bañera” de la tasa de fallas, ilustra el origen de
este supuesto de que la tasa de fallas es constante, según ya se
mencionó.

El "período operativo normal" o “período de vida útil" de esta curva


es la etapa en la que un producto está en uso concreto. Entonces se
mide la calidad del producto con respecto a una tasa de fallas
constante en relación con el tiempo.

En esta etapa el origen de las fallas puede incluir defectos no


detectables, bajos factores de seguridad en el diseño, tensión
aleatoria mayor de la esperada, factores
humanos y fallas naturales. Con períodos
holgados para pruebas de envejecimiento
de los componentes por parte de los
fabricantes, el mantenimiento adecuado y
el reemplazo proactivo de partes
desgastadas, debería evitarse el tipo de
curva rápida de deterioro que representa
el "período de desgaste".

33
Figura 2: Curva en forma de bañera que ilustra la tasa de fallas constante.

El análisis anterior brinda un panorama de los conceptos y las


diferencias entre confiabilidad y disponibilidad, permitiendo la
interpretación adecuada del valor de MTBF. En la siguiente sección,
se analizan los distintos métodos de predicción del MTBF.

MÉTODOS DE PREDICCIÓN Y CÁLCULO DE VALORES


DE MTBF

A menudo los términos “predicción” y “cálculo” se utilizan


indistintamente; sin embargo, no es correcto.

Los métodos que predicen el MTBF calculan un valor basado


únicamente en un diseño de sistema, en general, realizado
previamente en el ciclo vital del producto. Los métodos de predicción
tienen utilidad cuando los datos concretos son escasos o
inexistentes, como en el caso del trasbordador espacial o nuevos
diseños de productos.

De haber datos concretos suficientes, no deberían aplicarse los


métodos de predicción. En vez de estos, habría que recurrir a

34
métodos que calculan el MTBF porque representan mediciones
concretas de las fallas.
Los métodos que calculan el MTBF estiman un valor basado en una
muestra de sistemas similares observados, en general, realizados
después de que se ha instalado una gran cantidad de sistemas en
entornos concretos. Los métodos de cálculo de MTBF son los más
utilizados para valores de MTBF, principalmente porque se basan en
productos reales que están sometidos a uso concreto.

Todos estos métodos son de índole estadística, lo


cual significa que brindan solo una aproximación al
verdadero valor de MTBF. Ningún método se
estandariza en toda una industria. Por lo tanto, es
vital que el fabricante comprenda y seleccione el
mejor método para la aplicación en cuestión.

35