Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Este math-block forma parte de una serie de 8 documentos relacionados todos ellos con la
Fiabilidad de componentes desde un punto de vista estadístico:
• Conceptos Básicos (I).
• Identificación y descripción gráfica de los datos (II).
• Análisis paramétrico de los tiempos de fallo (III).
• Análisis no paramétrico de los tiempos de fallo (IV).
• Comparación no paramétrica de muestras (V).
• Tests de vida acelerada (VI).
• Modelos de regresión para observaciones censuradas (VII).
• Análisis Probit (Éxito / fracaso) (VIII).
MAPA CONCEPTUAL_______________________________________________
Observaciones con
censura arb. simple Observaciones con
censura arb. múltiple
Bandas de
confianza
Análisis no paramétrico
Análisis no paramétrico
con Minitab
con Statistica
Proyecto e-Math 1
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
INTRODUCCIÓN____________________________________________________
Como referencia bibliográfica, se recomienda consultar Lawless (1982) [13] y Nelson (1982) [18].
De forma análoga a como se enfocó el análisis paramétrico (en el math-block Fiabilidad III), las
partes segunda y tercera del presente math-block contienen ejemplos prácticos de análisis no
paramétrico desarrollados con ayuda de los programas MINITAB y STATISTICA.
i
∑ dj
ˆ(t i ) =
F
nº de fallos en (0, t i ] =
j =1
n n
Se puede demostrar que este F ˆ(t i ) es el EMV de F(ti ). Observar, además, que este estimador
está definido para todos los valores de ti (extremos superiores de los intervalos):
Si di = 0, entonces: F ˆ(ti −1 ) ∀ t ∈ [t i- 1, ti ]
ˆ(t) = F
ˆ(ti −1 ) ≤ F
Si di > 0, F ˆ(ti ) ∀ t ∈ (t i −1 , ti ] , siendo F
ˆ(t) ≤ F ˆ(t) creciente y F
ˆ(ti −1) < F
ˆ(ti)
Proyecto e-Math 2
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
~ ~
~
Un intervalo de confianza para F(ti) a nivel 1-α vendrá dado por: F(ti ), F(ti) , siendo:
−1 −1
(n − nF̂ + 1)Φ
~
F( t i ) = 1 +
(α / 2;2n− 2nF̂+ 2,2nF̂ ) ~
~
F( t i ) =
1 +
n − nF̂
nF̂ (nF̂ + 1)Φ (α / 2;2nF̂ + 2,2n− 2nF̂ )
donde F ˆ≡F ˆ(t i ) y Φ (p;v ,v ) es aquel valor que, en una distribución F con (v1,v2) grados de
1 2
libertad, deja a su derecha un área p.
Ejemplo (censura arbitraria simple): Supongamos que se parte de una muestra de 100
dispositivos que comienzan a funcionar en el instante t = 0. Se sabe que, transcurrido un año, ha
fallado 1 dispositivo. Otros dos dispositivos fallan entre el primer y segundo año, y 2 más dejan de
funcionar entre el segundo y tercer año.
F5 = E5/$B$11
G5 = (1+(($B$11-$B$11*F5+1)*DISTR.F.INV($B$13/2;2*$B$11-2*$B$11*F5+2;2*$B$11*F5))/($B$11*F5))^(-1)
H5 = (1+($B$11-$B$11*F5)/(($B$11*F5+1)*DISTR.F.INV($B$13/2;2*$B$11*F5+2;2*$B$11-2*$B$11*F5)))^(-1)
.....
Etc.
Observar que, una vez construída esta hoja de cálculo, es inmediata la obtención obtener de
intervalos de confianza a nivel 1-α (para ello sólo es necesario cambiar la casilla B13).
Proyecto e-Math 3
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
OBSERVACIONES CON CENSURA ARBITRARIA MÚLTIPLE_______________
Notación: Supóngase que se dispone de una muestra inicial de n dispositivos, los cuales han
comenzado a funcionar en el instante t = 0. Si una unidad no ha fallado en del intervalo i-ésimo (ti-1,
ti], o bien se habrá perdido su pista en dicho intervalo (con lo que sería una observación censurada
por intervalo), o bien se sabrá que ha continuado funcionando en el intervalo siguiente. En caso de
ser una observación censurada, supondremos que el instante de censura coincide con el extremo
superior del intervalo (ti).
Se denotará por:
Según se vio al presentar la tabla de supervivencia (en el math-block Fiabilidad I), un buen
estimador no paramétrico para la función de supervivencia sería:
i
ˆ(t ) =
S i ∏ (1 − pˆ j ) , i = 1,...,m
j =1
F ˆ(t ) ,
ˆ(t i ) = 1 − S i = 1,...,m
i
Se puede comprobar que F ˆ(t i ) es el EMV de F(ti). Observar, además, que este último estimador
está definido para todos los valores de ti (extremos superiores de los intervalos):
Si di = 0, entonces: F ˆ(ti −1 ) ∀ t ∈ [t i - 1, ti ]
ˆ(t) = F
Si di > 0, F(t i −1 ) ≤ F(t) ≤ F(ti ) ∀ t ∈ (t i −1 , t i ] siendo
ˆ ˆ ˆ Fˆ (t ) creciente y F
ˆ(ti −1) < F
ˆ(ti)
i
( )
ˆ(t i ) = Var S
Var F i (
ˆ (t )
ˆ(t ) ≈ S
i ) ( ) ∑ n (1pˆ− pˆ )
2 j
j =1 j j
Proyecto e-Math 4
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
~ ~
~
Un intervalo de confianza para F(ti) a nivel 1-α vendrá dado por: F(ti ), F(ti) , siendo:
~ F̂ ~
~ F̂
F( t i ) = F( t i ) =
F̂ + (1 − F̂ ) ⋅ w F̂ + (1 − F̂) / w
z ˆ
s ˆ
ˆ(t i ) y w = exp (α / 2) F
ˆ=F
F
donde
ˆ1 − F
F ˆ
( )
, siendo zα/2 el percentil 1 - α/2 en una N(0,1).
Ejemplo Censura Arb. Múltiple: Supongamos que se parte de una muestra de 300 dispositivos
que comienzan a funcionar en el instante t = 0. Transcurrido un año han fallado 4 dispositivos, y
hay 99 observaciones censuradas (no se sabe qué ha ocurrido con dichas unidades). Durante el
segundo año han fallado 5 dispositivos, y el número de observaciones censuradas es de 95.
Finalmente, durante el tercer año, han fallado otros dos dispositivos, siendo 95 el número de
observaciones censuradas.
F6 = D11-D5-E5
H6 = 1-G6
I6 = H5*H6
K6 = I6^2*(G5/(F5*H5)+G6/(F6*H6))
L6 = J6/(J6+(1-J6)*(EXP(DISTR.NORM.INV(1-$D$13/2;0;1)*RAIZ(K6)/(J6*(1-J6)))))
M6 = J6/(J6+(1-J6)/(EXP(DISTR.NORM.INV(1-$D$13/2;0;1)*RAIZ(K6)/(J6*(1-J6)))))
Etc.
Proyecto e-Math 5
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
ESTIMADOR DE KAPLAN-MEIER______________________________________
Hasta ahora, se ha supuesto que los tiempos de fallo exactos no eran conocidos, ya que para ello
hubiera sido necesario realizar un proceso de inspección continuo. En cualquier caso, es obvio que
conforme se vaya aumentando el número de inspecciones realizadas, irá disminuyendo la longitud
de los intervalos, con lo que la mayoría de éstos no contendrán fallo alguno, pues todos los fallos
se hallarán concentrados en sólo unos pocos intervalos.
Notar que la función F(t) será constante en todos aquellos intervalos sin fallos, incrementándose
sólo en los intervalos en que haya uno o más fallos. Si el tamaño de los intervalos es
suficientemente pequeño, cada intervalo registrará a lo sumo un único fallo, con lo que se obtendrá
una función F(t) escalonada: será constante en todos los intervalos sin fallos, y dará un “salto” en
aquellos intervalos que contengan un fallo. En el límite, conforme la longitud de los intervalos
tienda a 0, el estimador F ˆ(t) que se obtiene se conoce como estimador de Kaplan-Meier o
estimador Producto-límite.
En las páginas anteriores, se han proporcionado fórmulas con las cuales es posible hallar
intervalos de confianza para el valor de la función F(t) en un instante concreto ti. Sin embargo, en
ocasiones puede resultar conveniente disponer de intervalos de confianza para F(t) en todo un
rango continuo de posibles valores de t.
Lógicamente, para cualquier valor de t, la “amplitud” de estas bandas será mayor que la del
correspondiente intervalo de confianza (puesto que las bandas deberán contener a los intervalos
de confianza puntuales, siendo su precisión menor que la de estos últimos).
Al desarrollar los métodos anteriores, se ha supuesto que todas las censuras ocurren en el extremo
superior de cada intervalo. En tal sentido, se puede equiparar el conjunto de observaciones que
entra en cada intervalo con el conjunto de observaciones en riesgo. Al hacer esta hipótesis no se
está restando generalidad al modelo siempre que los tiempos de censura sean conocidos, ya que
en tal caso, bastará con tomar los extremos de los intervalos de forma que coincidan con tales
tiempos.
Sin embargo, si en vez de conocer de forma exacta los tiempos de censura, lo único que se
supiese es que dichos tiempos están contenidos en una serie de intervalos temporales, ya no sería
posible identificar el conjunto de observaciones entrantes con el conjunto de observaciones en
riesgo, ya que este último va disminuyendo a lo largo del intervalo (debido a que se producen en él
censuras). En tal caso, se optaría por tomar el número de observaciones en riesgo como el número
de observaciones entrantes en un intervalo menos la mitad de las censuradas en dicho intervalo
(tal y como se hizo en el math-block Fiabilidad I cuando se presentó la tabla de supervivencia).
Proyecto e-Math 6
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
Cuando no resulte posible ajustar los tiempos de fallo observados por ninguna distribución
conocida, no se podrá recurrir a los métodos paramétricos, vistos el math-block "Fiabilidad III", para
describir la distribución de los datos, por lo que deberemos utilizar otros métodos que no se basen
en ninguna distribución teórica (métodos no paramétricos). La opción Non-Parametric Dist.
Analysis de MINITAB ofrece el estimador de Kaplan-Meier, la tabla de supervivencia (que ya se
explicó en el math-block "Fiabilidad I"), y la tabla de Turnbull.
Se pretende realizar un análisis no paramétrico de los datos pertenecientes al caso de las cubiertas
para motores visto en el math-block Fiabilidad II (observaciones censuradas sólo a derecha).
Entrada de datos (input): Se deberán indicar las variables de interés así como las columnas de
censura:
Se opta por el estimador de Kaplan-Meier para este ejemplo (otra opción sería la tabla de
supervivencia) y se requiere el gráfico de la función de supervivencia:
Proyecto e-Math 7
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
Salida de datos (output): a continuación se muestran los resultados:
Las estimaciones sobre supervivencia están registradas en la tabla de Kaplan-Meier. Por ejemplo,
a 80º C, un 90% de las cubiertas seguirán funcionando correctamente tras 31 meses, mientras que
a 100º C dicho porcentaje de cubiertas sólo sobrevivirían unos 14 meses.
La última parte del “output” anterior contiene los resultados de dos test distintos que contrastan la
hipótesis nula de que todos los grupos de muestras son similares en cuanto a sus tiempos de fallo.
En el ejemplo de las cubiertas para motores, se obtiene un p-valor significativo tanto para el test
Log-Rank como para el test de Wilcoxon (considerando α = 0,05), por lo que se confirma la
existencia de diferencias sensibles entre los tiempos de fallo a 80º C y a 100º C.
1,0 Tiemp80
Tiemp100
0,9
0,8
0,7
Probability
0,6
0,5
0,4
0,3
0,2
0,1
0 10 20 30 40 50 60 70 80
Time to Failure
Proyecto e-Math 9
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
Para mostrar cómo llevar a cabo un análisis no paramétrico cuando las observaciones están
censuradas a derecha, izquierda y/o por intervalos (censura arbitraria), se recurrirá nuevamente el
ejemplo de los neumáticos introducido en el math-block Fiabilidad III:
Entrada de datos (input): como siempre, en primer lugar se deben indicar las variables que
contienen los tiempos de fallo y las columnas de censura:
La tabla de Turnbull muestra en primer lugar las probabilidades de fallo para cada intervalo. Así,
por ejemplo, la probabilidad de que un neumático que haya llegado en buen estado hasta los
60.000 km. falle en los próximos 10.000 km. es de 0,1876.
Proyecto e-Math 11
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
Entrada de datos (input): Dentro del módulo Survival Analysis, seleccionar la opción Life Tables &
Distributions :
Pulsar ahora sobre el botón Variables y seleccionar las primeras seis variables en la lista de la
izquierda. Después, seleccionar la variable Censur? como el indicador de censura en la lista de la
derecha:
Proyecto e-Math 12
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
Ya sólo falta pulsar sobre el botón Life Table para obtener una completa tabla de supervivencia:
Como alternativa a clasificar los tiempos de fallo observados en una tabla de supervivencia, se
podría estimar la función de supervivencia directamente de los datos. Intuitivamente, se trata de
crear una tabla de supervivencia de forma que cada intervalo temporal contenga una única
observación. Así, sería posible estimar la función de supervivencia en cada intervalo sin más que
multiplicar las probabilidades de supervivencia de los intervalos (observaciones) anteriores. Este
estimador de la función de supervivencia se llama estimador producto-límite o estimador de
Kaplan-Meier.
La ventaja del método Kaplan-Meier respecto a la tabla de supervivencia es que las estimaciones
resultantes no dependen de cómo se agrupan los datos en los intervalos. De hecho, Kaplan-Meier
se podría considerar como un caso particular de la tabla de supervivencia.
Entrada de datos (input): Para aplicar Kaplan-Meier al ejemplo de los ordenadores portátiles, se
debe elegir la opción Kaplan & Meier product-limit method :
Nuevamente, se pulsará sobre el botón Variables y se seleccionarán las primeras seis variables en
la lista de la izquierda, así como la variable Censur? como el indicador de censura en la lista de la
derecha.
Proyecto e-Math 13
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
Para obtener el estimador Kaplan-Meier, pulsar sobre el botón Product-limit survival analysis :
Survival Function
Complete Censored
1,0
0,9
Cumulative Proportion Surviving
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0 500 1000 1500 2000
Survival Time
Proyecto e-Math 14
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
Con este gráfico se aprecian mejor las características de la función de supervivencia: dicha función
decrece rápidamente durante, aproximadamente, los 100 días posteriores a la reparación.
Después, la función va decreciendo de forma mucho menos acentuada.
Así, parece lógico concluir que los primeros 100 días después de la reparación configuran un
período crítico en la supervivencia de los portátiles.
Por último, también es posible obtener los percentiles de la función de supervivencia sin más que
pulsar sobre Percentiles of survival function :
A partir de este último “output”, se puede afirmar que el 25% de todos los portátiles fallarán antes
de los primeros 64 días tras la reparación. El 50% de todos los portátiles sobrevivirán más de 679
días (casi dos años). El percentil 75 no pudo calcularse debido a que tan sólo las observaciones
censuradas mostraban períodos de duración largos según se aprecia en la tabla de supervivencia
anterior (están representadas con el signo +).
Proyecto e-Math 15
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
BIBLIOGRAFÍA_____________________________________________________
[1]. Aitchison, J., Jr. and Brown, J.A.C., The Lognormal Distribution, Campbridge University Press New
York, 176 pp., 1957.
[2]. Cramer, H., Mathematical Methods of Statistics, Princeton University Press,Princeton, NJ, 1946.
[3]. Davis, D.J., An Analysis of Some Failure Data, J. Am.Stat. Assoc., Vol. 47, p. 113, 1952.
[4]. Dudewicz, E.J., An Analysis of Some Failure Data, J. Am.Stat. Assoc., Vol. 47, p. 113, 1952.
[5]. Dudewicz, E.J., and Mishra, Sataya N., Modern Mathematical Statistics, John Wiley & Sons Inc.,
New York, 1988.
[6]. Hahn, Gerald J., and Shapiro, Samuel S., StatisticalModels in Engineering, John Wiley & Sons, Inc.,
NewYork, 355 pp., 1967.
[7]. Hald, A., Statistical Theory with Engineering Applications,John Wiley & Sons, Inc., New York, 783
pp., 1952.
[8]. Johnson, Leonard G., The Median Ranks of Sample Values in their Population With an
Application to CertainFatigue Studies, Industrial Mathematics, Vol. 2, 1951.
[9]. Johnson, Leonard G., The Statistical Treatment of Fatigue Experiment, Elsevier Publishing
Company, NewYork, 144 pp., 1964.
[10]. Kapur, K.C., and Lamberson, L.R., Reliability in Engineering Design, John Wiley & Sons, Inc.,New
York, 586 pp., 1977.
[11]. Kececioglu, Dimitri, Reliability Engineering Handbook,Prentice Hall, Inc., Engelwood Cliffs, New
Jersey, Vol. 1,1991.
[12]. Kececioglu, Demitri, Reliability & Life Testing Handbook,Prentice Hall, Inc., Engelwood Cliffs, New
Jersey, Vol. 1and 2, 1993 and 1994.
[13]. Lawless, J.F., Statistical Models And Methods for Lifetime Data,John Wiley & Sons, Inc., New York,
1982.
[14]. Leemis Lawrence M., Reliability- Probabalistic Models and Strategical Methods, Prentice Hall, Inc.,
Engelwood Cliffs, New Jersey, 1995.
[15]. Lloyd, David K., and Lipow Myron, Reliability: Management, Methods, and Mathematics,
1962,Prentice Hall, Englewood Cliffs, New Jersey.
[16]. Mann, Nancy R., Schafer, Ray E., and Singpurwalla,Nozer D., Methods for Statistical Analysis of
Reliability and Life Data, John Wiley & Sons, Inc., New York, 1974.
[17]. Meeker, W.Q., and Escobar, L.A., Statistical Methods for Reliability Data, John Wiley & Sons, Inc.,
New York, 1998.
[18]. Nelson, Wayne, Applied Life Data Analysis, John Wiley & Sons, Inc., New York, 1982.
Proyecto e-Math 16
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)
Análisis no paramétrico de los tiempos de fallo
ENLACES_________________________________________________________
[W1] Desde la página de la empresa Relia Soft podemos consultar la revista Reliability Edge
o bien subcribirnos gratuitamente a ella. Se trata de una publicación cuatrimestral
relacionada con la Ingenieria de la Fiabilidad, que contiene artículos desde un nivel de
introducción hasta el nivel más alto posible.
[W2] También desde esa página podemos consultar, o bien subcribirnos, la revista Reliability
Hot Wire, una revista eléctronica con artículos sumamente interesantes.
Proyecto e-Math 17
Financiado por la Secretaría de Estado de Educación y Universidades (MECD)