Está en la página 1de 7

FIABILIDAD (II): IDENTIFICACIN Y DESCRIPCIN GRFICA DE LOS DATOS

RELACIN CON OTROS MATH-BLOCS__________________________________


Este math-block forma parte de una serie de 8 documentos relacionados todos ellos con la Fiabilidad de componentes desde un punto de vista estadstico: Conceptos Bsicos (I). Identificacin y descripcin grfica de los datos (II). Anlisis paramtrico de los tiempos de fallo (III). Anlisis no paramtrico de los tiempos de fallo (IV). Comparacin no paramtrica de muestras (V). Tests de vida acelerada (VI). Modelos de regresin para observaciones censuradas (VII). Anlisis Probit (xito / fracaso) (VIII).

MAPA CONCEPTUAL_________________________________________________

Fiabilidad (II): Identif. y descripcin grfica

.M

at

em

at

ic

Grficos de probabilidad

a1

.c

om

Identificacin grfica de la distribucin de ajuste (Minitab)

Estadstico Anderson-Darling

Paramtrica

Descripcin grfica de la distribucin de ajuste (Minitab)

No paramtrica

INTRODUCCIN_____________________________________________________
Supongamos que se dispone de una relacin de tiempos de fallo asociados a un determinado dispositivo, i.e., se tienen n observaciones de la v.a. T = tiempo transcurrido hasta que se produce el fallo. Lo primero que convendra hacer es tratar de identificar alguna distribucin conocida a la cual se ajustasen bien las observaciones, pues ello nos simplificara el anlisis descriptivo de los datos, as como la realizacin de inferencias sobre la poblacin. En muchas ocasiones ser posible identificar la distribucin que mejor se aproxima a las observaciones mediante el uso de grficos de probabilidad. Este tipo de grficos muestran la f.d. linealizada de una distribucin terica junto con una nube de puntos que representan estimaciones (no paramtricas) puntuales de la f.d. de T. Evidentemente, cuanto ms se aproxime la nube de puntos a la recta que aparece en el grfico, tanto mejor ser el ajuste. Si se lograse aproximar la distribucin de T mediante alguna distribucin terica conocida, sera posible usar esta ltima para representar grficamente estimaciones de la funcin de supervivencia, de la f.d.p., y de la tasa de fallos (descripcin paramtrica) de las observaciones. En caso contrario, ser necesario recurrir a la estimacin puntual de la f.d. asociada a T para representar grficamente estimaciones de las funciones anteriores (descripcin no paramtrica). En este math-block se har uso del programa estadstico MINITAB para identificar y describir grficamente la distribucin que mejor se ajuste a un conjunto de observaciones que usaremos como ejemplo. Las posibles distribuciones de ajuste son: la normal, la lognormal (base e), la Weibull, y la exponencial.

Al representar grficamente las funciones de distribucin (f.d.) de las diferentes distribuciones tericas, se obtienen curvas muy similares, muchas de ellas difciles de ser identificadas a simple vista. Es por ello que se utilizan los grficos de probabilidad, los cuales hacen uso de escalas especiales en los ejes, de manera que al representar la f.d. sta tenga forma lineal. El primer paso ser pues encontrar la transformacin adecuada para t y F(t) de modo que al representar t vs. F(t) se obtenga una funcin lineal. Ejemplo (linealizacin de una Weibull): La f.d. asociada a una distribucin Weibull de dos parmetros (, ) viene dada por la expresin: F(t) = 1 exp{-(t/)} con , > 0

Esta funcin puede ser linealizada (i.e., puesta de la forma: y = a + bx) como sigue: F(t) = 1 exp{-(t/)} ln(1-F(t)) = ln(exp{-(t/)}) ln(1-F(t)) = -(t/) ln(-ln(1-F(t))) = ln(t/) ln(ln(1-F(t))-1) = ln(t) - ln() Tomando ahora y = ln(ln(1-F(t))-1) , y x = ln(t) la f.d. puede rescribirse en forma lineal como: y = x - ln(). A continuacin se representa grficamente la f.d. de una Weibull (con escala = 10 y forma = 4) y su versin linealizada:

.M

at

GRFICOS DE PROBABILIDAD_________________________________________

em

at

ic

a1

.c

om

Escala (alpha) = Forma (beta) = t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 F(t) 0,00 0,00 0,01 0,03 0,06 0,12 0,21 0,34 0,48 0,63 0,77 0,87 0,94 0,98 0,99 1,00

10 4 x = ln(t) 0,00 0,69 1,10 1,39 1,61 1,79 1,95 2,08 2,20 2,30 2,40 2,48 2,56 2,64 2,71 2,77

WEIBULL
1,00

f.d. Weibull, escala = 10 forma = 4

y = ln(ln(1-F(t))-1) -9,2 -6,4 -4,8 -3,7 -2,8 -2,0 -1,4 -0,9 -0,4 0,0 0,4 0,7 1,0 1,3 1,6 1,9
F(t)

0,80 0,60 0,40 0,20 0,00 0 5 10 15

f.d. Weibull linealizada, escala = 10 forma = 4


3,0 1,0 -1,0 -3,0 -5,0 -7,0 -9,0 0,00

om

Para cada punto (xj,yj), el valor xj vendr dado por la j-sima observacin tj (instante en que se ha producido el fallo j-simo). Ms complicado ser hallar el valor de la coordenada yj, la cual representar el valor estimado de F(tj). Es usual estimar el dicho valor mediante los llamados rangos medianos, los cuales se pueden calcular, en el caso de la distribucin Weibull con observaciones completas (sin censura), mediante la ecuacin que se muestra a continuacin. Para profundizar ms sobre este mtodo, se recomiendan las referencias bibliogrficas Hald (1952a) [9] y Hald (1952b) [10]: F(tj) rango mediano j-simo = ( 1 + F(0,5; m,n) (n j + 1) / j )-1 donde: F(0,5; m,n) es la mediana de una F-Snedecor con m = 2(n j + 1) y n = 2j grados de libertad, j es el orden del fallo, y n es el tamao muestral. Como se ver en el apartado siguiente, los programas estadsticos actuales (como MINITAB) son capaces de realizar los clculos anteriores, automatizando as el proceso de construccin de estos grficos de probabilidad. Cuando se tengan ya representados todos los puntos (x,y) asociados a las observaciones, se deber hallar la recta de regresin asociada, la cual corresponder a la f.d. de la distribucin elegida cuyos parmetros mejor se ajusten a las observaciones. Para ver si las observaciones pueden aproximarse bien por dicha distribucin, habr que analizar (grficamente o mediante el estadstico AndersonDarling) si los puntos representados se encuentran suficientemente prximos a la recta, prestando especial atencin a los valores de los extremos.

Una vez conocidas las transformaciones que permiten linealizar la f.d. asociada a una distribucin, es posible construir una plantilla especial (con los ejes graduados de forma adecuada) sobre la cual representar una nube de puntos que contenga cada uno de los tiempos de fallo observados (eje x) junto con el valor (estimado) de la f.d. asociado a dicha observacin (eje y).

.M

at

em

at

ic

a1

.c

0,50

1,00

1,50

2,00

2,50

3,00

IDENTIFICACIN GRFICA DE LA DISTRIB. DE AJUSTE____________________


Ejemplo (identificacin grfica): se considerar aqu el caso de una compaa que fabrica cubiertas para motores, cubiertas que pueden estropearse rpidamente si se ven sometidas a temperaturas elevadas. El archivo Motores.mtw contiene los tiempos de fallo (en meses) de las cubiertas a dos temperaturas distintas. La primera muestra (Tiemp80) consta de 50 cubiertas sometidas a 80 C; la segunda muestra (Tiemp100) abarca 40 cubiertas a 100 C. Algunas de las cubiertas que se empezaron a estudiar, o bien fallaron debido a causas distintas a la temperatura, o bien no continuaron en el estudio por motivos diversos y, por tanto, se desconoce el instante en que fallaron (observaciones censuradas a derecha). En las columnas Comp80 y Comp100 se especifica si los tiempos obtenidos pertenecen a observaciones completas (1) o a observaciones censuradas (0). Una vez introducidos los datos, seleccionamos Stat > Reliability/Survival > Distribution ID Plot-Right Cens... :

Se eligen las variables que contienen los tiempos de fallo, as como las columnas en las que se indica si ha habido o no censura (cada una de stas se asociar a una variable segn el orden de entrada):

.M

at

em

at

ic

a1

.c

om

Observar que una alternativa al uso de columnas indicadoras de censura sera fijar el tiempo que ha de transcurrir (o el nmero de observaciones que han de fallar) como indicador de censura (censura por tiempo o por fallos). El programa ofrece una serie de opciones, como la de escoger entre los siguientes mtodos no paramtricos para la obtencin de los grficos: Herd-Jonhson, Kaplan-Meier, y Kaplan-Meier modificado (ver el math-block Fiabilidad IV). Por defecto, en el caso de observaciones censuradas, MINITAB utiliza el mtodo Kaplan-Meier modificado:

DNI distribucin tiempos de fallo de cubiertas


ML E stim ates - Cens oring Colum n in Com p80...Com p100

Weibull
99 95 90 80 70 60 50 40 30 20 10 5 3 2 1 10 100 99 95

Por su parte, el estadstico Anderson-Darling nos da una medida de lo alejadas que se encuentran las observaciones de las recta que representa las funcin de distribucin. Cuanto mejor sea el ajuste, tanto menor ser dicho estadstico. En este caso vemos que el menor valor que toma el estadstico AD corresponde a la distribucin lognormal (67,22 para la muestra a 80 C y 16,50 para la muestra a 100 C), lo que confirma que es esta distribucin la que mejor se ajusta a las observaciones:

.M

at

em

at

ic

Si los puntos representados en el grfico estn suficientemente prximos a la recta, podremos dar por bueno el ajuste de las observaciones mediante la distribucin terica elegida (resulta conveniente prestar atencin especial a los valores de los extremos). Como se observa en los grficos siguientes, la distribucin que mejor se ajusta a los datos es la lognormal (base e).

a1

.c

Lognormal base e
Tiemp80 Tiemp100

om

Anderson-D arling (adj)


80 70 60 50 40 30 20 10 5 1 10 100

Weibull 67,64; 16,60 Lognormal bas e e 67,22; 16,50 Ex ponential 70,33; 18,19 Normal

Percent

Percent

Exponential
99 98 97 95 80 70 60 50 40 30 20 10 5 1 0 100 200 300 400 0 99 95

Normal

67,73; 17,03

Percent

90 80 70 60 50 30 10

Percent

50

100

DESCRIPCIN GRFICA DE LOS DATOS________________________________


Una vez se haya tratado de ajustar los tiempos de fallo mediante alguna distribucin conocida, ser conveniente realizar una descripcin grfica de las observaciones. Si se ha logrado identificar la distribucin de los tiempos de fallo, se optar por un enfoque paramtrico. Si, por el contrario, las observaciones no se ajustan a ninguna de las cuatro distribuciones propuestas (exponencial, Weibull, normal y lognormal), se optar por usar mtodos no paramtricos. El enfoque paramtrico incluye los siguientes grficos: f.d.p., funcin de supervivencia, f.d. (linealizada), y tasa de fallo. La opcin no paramtrica incluye un grfico de la funcin de supervivencia (basado en Kaplan-Meier) y otro de la funcin tasa de fallo. Ejemplo (descripcin paramtrica): Siguiendo con el ejemplo anterior de las cubiertas, se utilizar la distribucin lognormal (base e) para hacer una descripcin completa de las variables que interesan:

Probability Density Function


0,02

.M

ML Estimates - Censoring Column in Comp80...Comp100

at

Grficas distribucin de datos

em

at
Lognormal base e Probability
Tiemp80 Tiemp100 Location Scale 4,0927 3,6287 0,4862 0,7309 A D* 67,22 16,50 F/C 37/13 34/ 6

99 95 90 80 70 60 50 40 30 20 10 5

0,01

Percent

0,00 0 100 200

1 10 100

Survival Function
1,0 0,9 0,8 0,7 0,03

ic
Hazard Function
Tiemp80 Tiemp100
Probability
0,6 0,02 0,4 0,3 0,2 0,1 0,0 0 100 200 0,00 0 100 200

Rate

0,5

0,01

Las cuatro grficas anteriores describen la distribucin de los tiempos de fallo de las cubiertas para dos niveles diferentes de temperatura. A partir de las mismas, es posible determinar, p.e., cunto ms probable resulta el que las cubiertas fallen si se encuentran sometidas a una temperatura de 100 C que si lo estn a una de 80 C.

a1

.c

om

As, p.e., se observa (a partir del grfico de supervivencia) que, tras 50 meses, slo sobrevivirn (aproximadamente) un 30% de las cubiertas sometidas a 100 C, mientras que el porcentaje de supervivientes a los 50 meses sube hasta (aproximadamente) un 65% para las cubiertas sometidas a 80 C. Ejemplo (descripcin no paramtrica): Si se hubiese optado por un mtodo no paramtrico (sin suponer que los datos pueden ajustarse por una determinada distribucin terica), los resultados hubiesen sido los siguientes:

1,0

.M

Kaplan-Meier Survival Function


0,9 0,8

at

em

Kaplan-Meier Method - Censoring Column in Comp80...Comp100

at

Grficas distribucin de datos

ic

a1

.c

om

Probability

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 10 20

30

Tiemp80 Tiemp100

40

50

60

70

80

Nonparametric Hazard Function


0,2

Rate

0,1

0,0 0 10 20 30 40 50 60 70 80

A partir de las funciones de supervivencia se aprecia que hay una sustancial diferencia entre los tiempos de fallo de las cubiertas a 80 C y los de las cubiertas a 100 C: claramente, a una temperatura de 80 C la mayor parte de las cubiertas perdura durante ms tiempo que a 100 C.