Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Confiabilidad PDF
Confiabilidad PDF
sistemas electrónicos
tolerantes a fallas
(Evaluación y Cálculo de la Confiabilidad)
2
Resumen
Medidas Cuantitativas de Confiabilidad
Técnicas para la evaluación de la confiabilidad.
Cálculo de la confiabilidad de un sistema.
3
Resumen
Medidas Cuantitativas de Confiabilidad
Técnicas para la evaluación de la confiabilidad.
Cálculo de la confiabilidad de un sistema.
4
Cálculo de la Confiabilidad
Se analizarán algunos conceptos
cuantitativos que buscan calcular la
confiabilidad como característica de un
objeto, a través de la función matemática
de confiabilidad
El objetivo es un tratado matemático que
pueda definir la confiabilidad a nivel de
sistema, partiendo de la confiabilidad de
cada componente.
5
Confiabilidad
La confiabilidad es un campo relativamente
nuevo cuyo nacimiento se debe
principalmente a la creciente complejidad
de las tecnologías modernas y al rápido
progreso de la microelectrónica.
6
Un poco de historia …
Los problemas de escasa confiabilidad se
hicieron evidentes en los equipos militares
usados por los norteamericanos desde los
años 60.
Algunos estudios revelaron que:
Los equipos electrónicos eran operativos sólo el
50% del tiempo.
2/3 de los equipos del ejército estaban en
reparación.
7
Tasa de Falla y Función de
Confiabilidad
Intuitivamente:
Tasa de Falla = número esperado de fallas (de
un DISPOSITIVO de o de un SISTEMA) por
unidad de tiempo.
Función de Confiabilidad = Probabilidad de que
un único componente NO esté dañado en el
tiempo t
Se deben proveer definiciones formales
8
Función de Confiabilidad
R(t) = Probabilidad condicional de que el
componente funcione correctamente
durante el intervalo (t0,t), dado que en el
tiempo t0 él funcionaba correctamente.
9
Derivación de la Función de
Confiabilidad
Se someten a prueba N componentes
idénticos en el tiempo t0
Después de un tiempo t tendremos N0
componentes funcionantes (operational) y
Nf componentes dañados (failed): N = NO +
NF .
NO (t ) NO (t )
R (t ) = =
N NO (t )+ N F (t )
10
Interpretación
R(t) es la probabilidad de que el
componente sobreviva al intervalo (t0, t)
Prolongando el tiempo, el número de
componentes funcionantes NO disminuye,
como consecuencia la Función de
Confiabilidad disminuye.
NO (t )
R (t ) =
NO (t )+ N F (t )
11
Función de No-Confiabilidad (I)
Q(t) es la probabilidad de que un
componente NO sobreviva al intevalo (t0,
t). Se llama también Función de Densidad
de Malfuncionamiento.
Los eventos
Componente
Componente
mentarios:
12
Función de No-Confiabilidad (II)
N F (t )
Q (t ) =
NO (t )+ N F (t )
13
Ritmo de Decaimiento (I)
Calculamos la derivade de R(t) con
respecto al tiempo
N F (t )
R(t ) = 1 − Q(t ) = 1 −
N
dR(t ) ⎛ 1 ⎞ dN F (t )
= ⎜− ⎟
dt ⎝ N ⎠ dt
dN F (t ) dR(t )
= (− N )
dt dt
14
Ritmo de Decaimiento (II)
dNF/dt se puede interpretar como el
número de componentes que sufren daños
durante un intervalo de tiempo dt,
comprendido entre t y t+dt; que equivale a
la velocidad de daño en el tiempo t.
dN F (t ) dR(t )
= (− N )
dt dt
15
Tasa de Daño (I)
Dividiendo ambos miembros de la ecuación
entre NO(t) se obtiene z(t), conocida como
Función de Peligro o Tasa de Daño o Tasa
de Falla
1 dN F (t ) N dR(t )
z (t ) = =−
N O (t ) dt N O (t ) dt
16
Tasa de Daño (II)
Siendo R=NO/N , la Tasa de Daño se puede
expresar como:
dR(t )
z (t ) = − dt
R(t )
17
Fórmula matemática de la
Confiabilidad
Manipulando e integrando se obtiene la
fórmula matemática de Confiabilidad:
d R (t )
z (t ) d t = −
R (t )
t R ( t ) d R (t ) R d R (t )
∫0 z (t )dt = ∫R ( 0) R (t ) = ∫1 R (t )
t
∫ z (t )dt = − ln R (t )
0
⎛
R (t ) = exp ⎜ − ∫ z (t )dt ⎞⎟
t
⎝ 0 ⎠ 18
Comportamiento de la Tasa de Daño
19
Comportamiento de la Tasa de Daño
Función Tasa de Falla
z(t)
Curva en forma
de “Tina de
baño”
Tasa de
λ Fallas
Constante Fase de Periodo de vida útil Fase Senil
Mortalidad
Infantil
T1 T2
Tiempo
20
Tasa de Daño λ
Representa un tasa de daño constante en
la vida útil del producto.
Se expresa como el número de daños por
unidad de tiempo
Es conveniente hacer funcionar el sistema
en la zona en la cual z(t)=λ
21
Tiempo de Misión
Es la cantidad de tiempo que se necesita
para garantizar que el sistema satisfaga un
cierto grado de servicio.
Ejemplos de tiempo de misión:
Misil: pocas horas
PC: 5 años
Satélite: 10 años
Central telefónica: 20/25 años
22
Ciclo de vida de un producto
El comportamiento de la tasa de daño, en
forma de tina de baño aparece
sistemáticamente cada vez que se analiza
por completo el ciclo de vida de un gran
número de sistemas de diferente tipo:
mecánicos, eléctricos, electrónicos, etc.
23
Ciclo de vida de un producto
Se analizan los tres periodos
separadamente.
24
Periodo de Asentamiento
La tasa de daño decrece debido a que los
elementos débiles se dañan.
Después del tiempo T1 todos los elementos
de constitución débil cesan de funcionar.
25
Daños Infantiles (I)
El período de asentamiento se caracteriza
por daños debidos a la calidad del proceso
productivo, se atribuyen típicamente a la
rotura de componentes que presentan
algún defecto intrínseco.
En el caso de los semiconductores:
soldaduras mal hechas, contenedores no
herméticos, grandes deféctos tecnológicos,
…
26
Daños Infantiles (II)
Estos componentes se dañan durante las
primeras horas (días o meses) dado que
son más débiles que los demás (mortalidad
infantil) y los daños que producen se
llaman Daños Infantiles (early fault).
27
Prevención de Daños Infantiles
Los Daños Infantiñes relacionados con el
periodo de asentamiento:
Pueden ser reconocidos y eliminados
fácilmente usando procedimientos (pruebas
aceleradas, burn-in) que permitan forzar la
manifestación del defecto intrínseco en el
sistema.
28
Las Pruebas Aceleradas (I)
Buscan acelerar la degradación del sistema
en un tiempo dado, aumentando las
condiciones de exigencia con respecto a
aquellas de uso normal.
Resultan válidas y significativas cuando no
introducen modos o mecanísmos de daño
diferentes a los que se verificarían en la
condiciones de uso normal.
29
Las Pruebas Aceleradas (II)
Las exigencias que se exaltan para acelerar
la vida de los dispositivos pueden ser de
tipo:
Ambiental (temperatura, humedad…)
Eléctrico (voltaje, corriente…)
Mecánico (vibraciones, golpes…).
30
Burn-in
Aproximadamente, la “vida operativa
vivida” se duplica cada vez que la
temperatura supera el 10% de la
temperatura nominal de trabajo.
El burn-in más utilizado es:
Para aparatos: funcionamiento a 45°C de 12 a
45 horas.
Para componentes: funcionamiento a 125°C
por 168 horas.
31
Periodo de Vida Útil
Después del asentamiento, la tasa de daño
se estabiliza sobre un valor casi constante
por un periodo de tiempo relativamente
largo (periodo de vida útil)
Este es el periodo más interesante para el
usuario, porque se caracteriza por el valor
más bajo de tasa de daño.
32
Daños en la Vida Útil (I)
El periodo de vida útil se caracteriza por
daños causados por eventos que,
relacionados típicamenten con el ambiente,
alcanzan incrementos imprevistos de
exigencia, más allá de la resistencia
máxima establecida por el diseño.
33
Daños en la vida Útil (II)
Como consecuencia:
Tales daños se pueden verificar durante
intervalos casuales, de manera imprevista, del
todo inesperada (daños casuales)
Ningún asentamiento ni ningún mantenimiento
es capaz de eliminarlos
34
Periodo de Desgaste
La Tasa de Daño crece rápidamente.
Los daños son debidos al envejecimiento
progresivo de los componentes: Daños
Seniles (wearout fault)
35
Daños Seniles
Durante este periodo se hacen evidentes
los mecanísmos de daño intrínsecos de
cada tecnología e independientes de la
construcción específica de cada
componente.
36
Ejemplo
La utilización de un sistema metálico Au-Al
para la realización de soldaduras hace
inevitable el hecho de que, después de
algunos años (por ejemplo 10), la
soldadura se despegue, debido a la
formación de compuestos intermetálicos
frágiles.
37
Prevención de Daños por Desgaste (I)
38
Prevención de Daños por Desgaste (II)
39
Ley Exponencial de Daños
Aplicando la fórmula matemática de la
confiabilidad durante el periodo de vida
útil, con z(t)=λ:
R(t ) = e − λt
R(t)
1
1/λ t
40
Medidas de Confiabilidad
Más allá del comportamiento estadístico de
R(t), es posible definir algunas medidas
particularmente representativas del nivel de
disponibilidad de un sistema.
Estas medidas son válidas exclusivamente
cuando z(t)=λ (Daños Casuales).
41
Tiempo Medio antes de la Falla
(MTTF Mean Time To Failure)
42
Relación entre MTTF y Confiabilidad
43
Relación entre MTTF y Tiempo
de Misión
t R(t) R(t)
MTTF 0.368 1
MTTF / 10 0.905
MTTF / 20 0.951
1/λ=MTTF t
MTTF / 100 0.990
MTTF / 1000 0.999
44
Consecuencias (I)
La confiabilidad de un sistema que posee
una MTTF igual al su tiempo de misión es
igual a 0.368.
Esto implica que: haciendo funcionar 100
dispositivos del mismo tipo, al final del
tiempo de misión funcionarán ~37,
mientras que ~63 se habrán dañado antes.
45
Consecuencias (II)
Para obtener, al final del tiempo de misión,
una confiabilidad del 99.9%, se debe
garantizar un MTTF 1000 veces superior al
Tiempo de Misión.
46
Sistemas Reparables (I)
Se define un Sistema Reparable a aquel,
después de un malfuncionamiento, se
puede restablecer gracias a alguna acción
de mantenimiento o reparación.
47
Sistemas Reparables (II)
El mantenimiento de un Sistema Reparable
se puede hacer de 2 modos:
Acción Correctiva: realizada como respuesta a
un malfuncionamiento
Acción Preventiva: realizada para prevenir o
retardar un malfuncionamiento.
48
Modelado de un Sistema
Un Sistema Reparable se encuentra en 2
estados posibles:
Funcionante (up)
En reparación (down).
Nótese que el sistema puede estar en
Reparación por una Acción Correctiva o por
una Acción Preventiva.
49
Tiempo Medio antes de la Reparación
(MTTR Mean Time To Repair)
50
Tiempo Medio Entre Fallas
(MTBF Mean Time Between Failure )
Es el tiempo medio que pasa entre dos
fallas del sistema
Es diferente al MTTF, porque el MTTF hace
referencia a la Primera Falla
Toma en cuenta también el tiempo de
reparación
Si navg es el número medio de fallas en un
periodo T, se tiene: T
MTBF =
navg
51
Relación entre MTTF, MTBF, MTTR
52
Disponibilidad
Proporción de tiempo durante el cual el
sistema está disponible
MTTF
A=
MTTF +MTTR
53
Ejemplo
Considerando un sistema con:
MTTF = 886 horas
MTTR = 25 horas
A = 886/911 = 0.972
54
Resumen
Medidas Cuantitativas de Confiabilidad
Técnicas para la evaluación de la confiabilidad.
Cálculo de la confibilidad de un sistema.
55
Calculo de la Confiabilidad de un
Sistema
Problema
Calcular la Confiabilidad de un sistema,
conociendo las tasa de daño de los
componentes que lo constituyen.
56
Modelo de Previsión de
Confiabilidad
Expresión matemática que permite calcular
un valor esperado dada la tasa de daño de
un componente como función de las
características tecnológicas, de las
exigencias eléctricas, térmicas y
ambientales en las cuales el componente
trabaja.
57
Finalidad de un Modelo de Previsión
58
Modelos de Previsión: los Bancos
de Datos
Las tasas de daño son elencadas en
manuales
La tasa de daño se expresa a través de un
modelo que contiene todo lo conocido
sobre las leyes de degradación de los
componentes y la dependencia de factores
importantes.
59
Condiciones Habituales de
Funcionamiento
La estimación correcta de la confiabilidad
calculada para un sistema, depende de la
exáctitud de los valores de tasa de daño
adoptadas para los componentes.
60
Condiciones No Habituales de
funcionamiento
La Tasa de Daño sufre fuertes variaciones
con la variación de los niveles de exigencia.
La Tasa de Daño de los componentes
electrónicos son fuertemente influenciadas
por los niveles de voltaje, corriente y
temperatura.
61
Valor de la Tasa de Daño
El valor asumido como Tasa de Daño de los
componentes se refierea un conjunto de:
Condiciones de funcionamiento (ej.: valores de
voltaje, corriente y temperatura).
Niveles de exigencia mecánica (ej.: las
vibraciones y los golpes).
62
Manuales
MIL-HDBK-217: Departamento de la
Defensa a partir de 1962
RDF: CNET – Francia – 1974
HRD: British Telecom – UK – 1974
RPP: Bell Core – USA – 1984
AT&T: USA – 1990
IRPH93: Italtel, CNET e BT – EU - 1993
63
MIL-HDBK-217
En el ámbito electrónico, la referencia más
conocida y usada es el manual MIL-HDBK-
217, publicado por el Departamento de la
Defensa USA en 1962 y actualizado
periódicamente. De este manual es posible
extraer la tasa de falla de cualquier
componente electrónico bajo cualquier
condición de uso.
64
MIL-HDBK-217: Objetivo
Definir y mantener métodos consistentes y
uniformes para estimar la confiabilidad de
los sistemas electrónicos en el ámbito
militar.
Proveer modelos para el cálculo de tasas de
daño.
65
MIL-HDBK-217
Presenta 2 métodos:
Part stress analysis: presupone el conocimiento
de la información detallada del sistema y por
tanto se utiliza al final del diseño.
Parts count: necesita menos información y se
utiliza en la fase preliminar del diseño para
obtener una primera estima.
66
MIL-HDBK-217: Part Stress
Analysis (I)
Se debe disponer de una lista detallada de
las partes utilizadas en el sistema y de los
esfuerzos (stress) a los cuales se somenten
Hipótesis:
Componentes independientes.
Tasa de daño constante.
67
MIL-HDBK-217: Part Stress
Analysis (II)
λ p = λb πQ πE π A …
λp: Tasa de daño de la componente
λb: Tasa de daño base
πi : Factores que modifican la tasa de daño
base en función de los parámetros que
pueden influenciar la confiabilidad de la
parte.
68
MIL-HDBK-217: Part Stress
Analysis (III)
Principales factores utilizados:
πQ: Factor de Calidad: depende del selección
(screeining) sufrida por la parte
πE: Factor Ambiental: Toma en cuenta los
efectos de las condiciones ambientales (sobre
la tierra, sobre una nave, al vuelo, en el
espacio, sobre un misil, etc.)
69
MIL-HDBK-217: Part Stress
Analysis (IV)
Otros factores utilizados solo en modelos
específicos:
πL: Factor de Aprendizaje, tiene en cuenta la madurez
de la tecnología.
πT: Factor de Temperatura.
πE: Factor de Aplicación
πR: Factor de Potencia
πS: Factor de Esfuerzo Eléctrico
πC: Factor de Construcción del Contacto
πS: Factor de Función.
70
MIL-HDBK-217: Ejemplo
GAL (Generic Array Logic) y
Microprocesadores:
λp = (c1 πT + c2 πE) πQ πL
71
Ejemplo de condiciones de referencia
72
MIL-HDBK-217: Parts Count
Información necesaria:
Tipo y cantidad de partes:
Nivel de calidad de las partes:
λ = ∑ N i (λGπ Q )i
n
i =1
73
Limitación de las previsiones de
Confiabilidad a través de manuales
74
Estimación de la Confiabilidad de un
Sistema
75
Diagrama de Bloques de Confiabilidad
(RBD Reliability Block Diagram)
Diagrama de eventos
Muestra como el daño de cualquier
componente influenciaría el desempeño del
sistema.
Un sistema subdividido en unidades lo
suficientemente pequeñas para poder
calcular la confiabilidad.
76
RBD: análisis del sistema
En el diseño de un sistema cada parte
puede ser:
Única (el daño de tal elemento implica la falla
del sistema); tales elementos son necesarios
para realizar la función del sistema
Repetida (el daño de una de estas las partes se
compensa con el funcionamiento de sus
iguales)
77
Esquema de Confiabilidad
A partir del diseño se puede realizar un
sistema de bloques, conocido como
esquema de confiabilidad, en el cual:
Los elementos únicos se conectan en serie
Los elementos repetidos se conectan en
paralelo.
78
Ejemplo
in El sistema está formado por C1,
c1
C2 e C3 que son esenciales para
el funcionamiento del sistema.
c2 C5 es una repetición de C4.
c3
c4 c5
out
79
Sistemas Serie (I)
En los sistemas Serie es suficiente con que
un solo elemento se dañe para interrumpir
toda la cadena.
R1 R2 R3
80
Sistemas Serie (II)
La probabilidad de sobrevivencia del
sistema es el producto de la probabilidad
de sobrevivencia de cada bloque en serie.
Rs(t) = R1(t) R2(t) R3(t) = e -(λ1+λ2+λ3) t
81
Sistemas Serie (III)
En un sistema Serie la confiabilidad está
dada por el producto de la confiabilidad de
cada bloque y la Tasa de Daño es la suma
de las Tasas de Daño
λs = Σ λi
Rs = Π Ri
82
Ejemplo 1
Analizando una central de conmutación
compuesta por 10.000 componentes y
asumiendo que cada componente tenga
una Tasa de Daño λ = 10-7 = 0.1
ppm/hora.
La confiabilidad del sistema es:
Rs = e -(10^4 10^-7) t =e - t / 1000
83
Ejemplo 2 (I)
Consideremos un circuito electrónico
compuesto por:
4 transistores de silicio,
10 diodos de silicio
20 resistencias de aglomerado.
10 condensadores cerámicos.
84
Ejemplo 2 (II)
Supongamos además que:
El cableado (circuito impreso) y las soldaduras
sean 100% confiables.
Que los componentes trabajan bajo sus niveles
nominales de voltaje, corriente y temperatura.
85
Ejemplo 2 (III)
Supongamos que las tasas de daño sean
las siguientes para cada componente:
diodos: λd = 0.000002
transistores: λt = 0.00001
resistencias: λr = 0.000001
condesasdores: λc = 0.000002
86
Ejemplos 2 (IV)
Para evaluar la confiabilidad del circuito se
deben sumar las tasas de daño:
λs = 10 λd + 4 λt + 20 λr + 10 λc
λs = 0.0001
MTTF = 1 / λs = 10.000 horas
87
Sistemas Paralelo (I)
Un conjunto de elementos tales que cada
uno es suficiente para asegurar el
funcionamiento del sistema.
R1 R2
88
Sistemas Paralelo (II)
Un sistema paralelo está constituidos por
dos aparatos similares, uno de los cuales es
redundante y entra en funcionamiento
cuando el otro se daña.
Un sistema paralelo se daña cuando ambos
aparatos se dañan.
89
Sistemas Paralelo (III)
La probabilidad de daño de un sistema
paralelo se debe a la probabilidad del daño
contemporáneo de cada aparato.
Suponiendo que los daños en cada aparato
sean independientes:
Qp(t) = Q1(t) Q2(t) Q3(t)
Qp(t) = [1 - e -λ1 t ] [1 - e -λ2 t ] [1 - e -λ3 t ]
90
Ejemplo
Un aparato constituido por dos bloques
redundantes de 10.000 componentes,
posee una tasa de daño de 10-7 la
probabilidad de daño del sistema es:
Qs = ( 1 - e -t/1000 )(1-e -t/1000 )
Rs = 1 – Qs
91
Duplicación
En un sistema duplicado:
Q (t) = [1 - e -λ t ]2 = 1 - 2 e -λ t + e –2 λ t
R(t) = 1 - Q (t) = 2 e -λ t - e –2 λ t
∞
MTTF = ∫ R(t )dt
0
MTTF = 1.5 / λ = 1.5 MTTF0
92
M1
Redundancia 2-de-3
M2 V
M3
93
Cut Set
Es el conjunto de componentes, cuyo daño
provocaría unmalfuncionamiento del
sistema
1 2
4
3
96
Redundancia (II)
En los casos de redundancia caliente y
stand-by se existe de un interruptor
(switch) que permite el cambio
maestro/esclavo (master/slave) en el
momento en el que se presenta el daño en
el maestro (master).
97
Caso de studio
Calcule la confiabilidad del sistema ilustrado
en la figura.
A1
CS S
A2
98
Descripción del sistema
Los dos aparatos A1 y A2 don redundantes.
Un interruptor S (accionado usando un
comando de cambio CS) permite
seleccionar uno de los dos aparatos.
99
Construcción del Esquema de
Confiablidad
Para obtener el esquema de confiabilidad
se deben buscar los eventos que pueden
conducir al daño del sistema. Tales
eventos son:
1. Se dañan ambos, A1 y A2
2. Se daña S
3. Se dañan ambos, A1 y CS.
100
Esquema de Confiabilidad
Cada uno de los eventos considerados es
suficiente para bloquear el sistema,
entonces se conectan confiabilísticamente
en serie.
Los sub-eventos que componen los eventos
1 y 3 se deben conectar en paralelo porque
deben suceder los dos para que el sistema
se dañe.
101
Esquema de Confiabilidad
El esquema de Confiabilidad es el
siguiente:
λ1 λ1
λs
λ2 λcs
102
Ejercicio
El servidor de una base de datos necesita
315GByte de disco, tal espacio se obtiene usando
9 discos de 35GByte. Por cuestiones de
desempeño, no se conectan más de 3 discos a un
mismo controlador.
Considere los siguientes sistemas:
Sistema no tolerante a fallas: el sistema se daña
cuando se daña un disco o un controlador o el servidor.
Sistema tolerante a fallas: Con esta arquitectura el
malfuncionamiento de un disco debido al controlador
es compensado por el sistema.
103
Ejercicio (continuación)
104
Solución (I)
Sistema no tolerante:
s c1 d1 d2 d3
c2 d4 d5 d6
c3 d7 d8 d9
λs = λS + 3 λC + 9 λD =
4*10-5 + 6*10-6 + 4.5*10-5 = 9.1*10-5
MTTF = 1 / λs = 1098 horas
105
Solución (II)
Sistema tolerante:
d1 d4
s c1 d2 c2 d5
d3 d6
d7 d10
c2 d8 c4 d11
d9 d12
λs = λS + 4 λC + 4*6/5 λD + =
4*10-5 + 8*10-6 + 2.4*10-5 = 7.2*10-5 = 1388 horas
106