Está en la página 1de 50

LIFE DATA ANALYSIS

Presentado por:
Dheybi Cervan
dcervanp@uni.pe
CONTENIDO

• Introducción
• Estadística básica y aproximaciones
• Regresión lineal simple
• Median Rank Regression
• Datos censurados
RELACIÓN ENTRE EL MODELO Y EL MUNDO REAL

• A través de la estadística, emplearemos nuestros datos de campo para


crear un modelo

• A través de la probabilidad, emplearemos nuestro modelo para estimar un


comportamiento de la realidad
SELECCIÓN DEL MODELO ADECUADO

• Nuestros gráficos elaborados a partir de la data deben ser similares a los


formulados teóricamente.
OBJETIVO

• El objetivo es :

Determinar la distribución adecuada para nuestros datos

• Las distribuciones que se analizaran son:

Exponencial → estimar parámetro lambda


Weibull → estimar parámetros alfa y beta
RECOLECCIÓN DE DATOS

• Los datos de falla son las edades (y posiblemente el uso en caso de falla) de
los componentes que fallaron durante el período de recopilación de datos.

• Los datos censurados son los datos de los componentes que se pusieron en
funcionamiento pero que no fallaron durante el período de recopilación de
datos.
CONTENIDO

• Introducción
• Estadística básica y aproximaciones
• Regresión lineal simple
• Median Rank Regression
• Datos censurados
EJEMPLO 1: DATOS COMPLETOS

• Se registran nueve veces hasta la falla de un generador diesel. Los datos de


falla son lo siguientes:
# t (days)
1 17.3
2 31.3
3 45.9
4 22.1
5 78.3
6 2.3
7 8.1
8 11.3
9 4.8

• Considerando la premisa “as good as new”, se busca determinar un modelo


adecuado para el generador diesel.
Fuente: Modarres, M., Kaminskiy, M. P., & Krivtsov, V. (2016). Reliability engineering and risk analysis: a practical guide. CRC press
BOX PLOT

# t (days)
1 17.3
2 31.3
3 45.9
4 22.1
5 78.3
6 2.3
7 8.1
8 11.3
9 4.8
HISTOGRAMA

# t (days)
1 17.3
2 31.3
3 45.9
4 22.1
5 78.3
6 2.3
7 8.1
8 11.3
9 4.8
DENSIDAD

# Cantidad % densidad
1 5 56% 0.0278
2 2 22% 0.0111
3 1 11% 0.0056
4 1 11% 0.0056
total 9 100%

Para cada intervalo


0.56/20 = 0.0278
ECDF : EMPIRICAL CUMULATIVE DISTRIBUTION FUNCTION

• Esta función 𝐹(𝑡) es equivalente a la función 𝐹(𝑡), su forma depende de
nuestros datos.
• Para elaborar la ECDF se requiere ordenar nuestros datos.
• Los datos ordenados están dados por 𝑦 = 𝑦1 , 𝑦2 , 𝑦3 . . . 𝑦𝑛 donde 𝑦𝑖 ≤ 𝑦𝑖+1 , 𝑖 <
𝑖, . . . , 𝑛. Luego el ECDF es dado por:

0 𝑦 < 𝑦1
෠ 𝑖
𝐹(𝑡) = 𝑦𝑖 ≤ 𝑦 < 𝑦𝑖+1 , 𝑖 < 𝑖, . . . , 𝑛 − 1
𝑛
1 𝑦 ≥ 𝑦𝑛

Fuente: Modarres, M., Kaminskiy, M. P., & Krivtsov, V. (2016). Reliability engineering and risk analysis: a practical guide. CRC press
ECDF : EJEMPLO

# t (days) F'(t)

1 2.3 0.11
2 4.8 0.22
3 8.1 0.33
4 11.3 0.44
5 17.3 0.56
6 22.1 0.67
7 31.3 0.78
8 45.9 0.89
9 78.3 1.00
MEDIAN RANK

Una estimación aproximada para el cálculo del 𝐹(𝑡) es mediante la aproximación
de Benard (denominada Median Rank).
La fórmula de la aproximación de Benard está dada por:

𝑖 − 0.3

𝐹(𝑡) ≈
𝑛 + 0.4
Donde:
• Los datos están dados por 𝑦 = 𝑦1 , 𝑦2 , 𝑦3 . . . 𝑦𝑛
• Se cumple que
• 𝑖 es la jerarquía o posición de los datos.
• 𝑛 la cantidad total de datos

Fuente: Modarres, M., Kaminskiy, M. P., & Krivtsov, V. (2016). Reliability engineering and risk analysis: a practical guide. CRC press
MEDIAN RANK : EJEMPLO 1

Median
# t (days)
Rank
1 2.3 0.07
2 4.8 0.18
3 8.1 0.29
4 11.3 0.39
5 17.3 0.50
6 22.1 0.61
7 31.3 0.71
8 45.9 0.82
9 78.3 0.93
MEAN RANK


Otra estimación aproximada para el cálculo del 𝐹(𝑡) es mediante Mean Rank.
La fórmula de la aproximación está dada por:

𝑖

𝐹(𝑡) ≈
𝑛+1

Donde:
• Los datos están dados por 𝑦 = 𝑦1 , 𝑦2 , 𝑦3 . . . 𝑦𝑛
• Se cumple que
• 𝑖 es la jerarquía o posición de los datos.
• 𝑛 la cantidad total de datos

Fuente: Modarres, M., Kaminskiy, M. P., & Krivtsov, V. (2016). Reliability engineering and risk analysis: a practical guide. CRC press
MEAN RANK: EJEMPLO 1

Mean
# t (days)
Rank
1 2.3 0.10
2 4.8 0.20
3 8.1 0.30
4 11.3 0.40
5 17.3 0.50
6 22.1 0.60
7 31.3 0.70
8 45.9 0.80
9 78.3 0.90
APROXIMACIONES DE F(T)
CONTENIDO

• Introducción
• Estadística básica y aproximaciones
• Regresión lineal simple
• Median Rank Regression
• Datos censurados
REGRESIÓN LINEAL SIMPLE: FORMULACIÓN

Fuente: Elaboración propia


REGRESIÓN LINEAL SIMPLE: REPRESENTACIÓN GRÁFICA

Fuente: Elaboración propia


CORRELACIÓN

r2=0.98 r2=0.56 r2=0.25 r2=0.062

r2=0.98 r2=0.56 r2=0.25 r2=0.062


COEFICIENTE DE CORRELACIÓN Y DETERMINACIÓN

• Coeficiente de correlación ( R)
• Varía de -1 a 1.
• Indica la dirección y fuerza de relación entre la variable X e Y.

• Coeficiente de determinación (R2)


• Varía de 0 a 1.
• Valores cercanos a 1 indican un ajuste perfecto
FACTORES CLAVE PARA UNA BUENA REGRESIÓN LÍNEA SIMPLE

Los factores clave en un regresión simple son:

• Coeficiente de determinación (R2), sea cercano a 1.

• Coeficiente de regresión asociado a la variable X no sea un valor cercano a


cero.
CONTENIDO

• Introducción
• Estadística básica y aproximaciones
• Regresión lineal simple
• Median Rank Regression
• Datos censurados
MEDIAN RANK REGRESSION

El método consiste en:

1. Estimar 𝐹෠ 𝑡 en base a la aproximación de Bernards


2. Linealizar 𝐹(𝑡)


3. Realizar una regresión entre 𝐹(𝑡) y𝑡

4. Determinar los parámetros en base a la regresión


CASO EXPONENCIAL

• Para el caso de la distribución exponencial tenemos lo siguiente:

𝐹(𝑡) = 1 − 𝑒 −𝜆𝑡

1 − 𝐹(𝑡) = 𝑒 −𝜆𝑡

1
= 𝑒 𝜆𝑡
1 − 𝐹(𝑡)

1
𝑙𝑛 = 𝜆𝑡
1 − 𝐹(𝑡)
CASO EXPONENCIAL

Si consideramos que:
1
𝑦 = 𝑙𝑛
1 − 𝐹(𝑡)

Tenemos una ecuación lineal de la siguiente forma:

𝑦 = 𝜆𝑡

Esta ultima expresión es una ecuación lineal


CASO EXPONENCIAL

Análogamente, nuestra función 𝐹(𝑡) la podemos transformar para obtener un 𝑦.

Tendriamos una ecuación lineal de la siguiente forma:

መ +𝛽
𝑦ො = 𝜆𝑡

Para hallar el valor de 𝜆መ emplearemos la regresión lineal simple.


EJEMPLO 1

Median
# t (days) ln(1/(1-F(t)))
Rank
1 2.3 0.07 0.08
2 4.8 0.18 0.20
3 8.1 0.29 0.34
4 11.3 0.39 0.50
5 17.3 0.50 0.69
6 22.1 0.61 0.93
7 31.3 0.71 1.25
8 45.9 0.82 1.71
9 78.3 0.93 2.60

Lambda = 0.0333
GRAFICANDO
CASO WEIBULL
CASO WEIBULL
EJEMPLO
Median
# t (days) ln(t) ln(ln(1/(1-F(t))))
Rank
1 2.3 0.07 0.83 -2.56
2 4.8 0.18 1.57 -1.61
3 8.1 0.29 2.09 -1.08
4 11.3 0.39 2.42 -0.69
5 17.3 0.50 2.85 -0.37
6 22.1 0.61 3.10 -0.07
7 31.3 0.71 3.44 0.22
8 45.9 0.82 3.83 0.54
9 78.3 0.93 4.36 0.95

beta = 0.9857
alfa = exp(-3.2/beta)
alfa = 25.74
GRAFICANDO
COMPARANDO LAS ESTIMACIONES EXPONENCIAL Y WEIBULL

¿Cuál es mejor? ¿Exponencial o weibull?


CONTENIDO

• Introducción
• Estadística básica y aproximaciones
• Regresión lineal simple
• Median Rank Regression
• Datos censurados
RECOLECCIÓN DE DATOS

• Los datos de falla son las edades (y posiblemente el uso en caso de falla) de
los componentes que fallaron durante el período de recopilación de datos.

• Los datos censurados son los datos de los componentes que se pusieron en
funcionamiento pero que no fallaron durante el período de recopilación de
datos.
TIPO DE DATOS

Se tienen dos tipos de datos


• Completos: donde el 100% de nuestros datos son fallas (failure data)

• Incompletos: donde se tienen datos censurados y de falla.

• Se tienen 3 tipos de censura:


• Right censored or suspended data
• Interval censored
• Left censored
TIPOS DE MEDICIÓN

Failure data

Right censored Tiempo

Medición

Falla
Interval censored
Intervención

Left censored
EJEMPLO 2

• Considere los siguientes datos de medición

Tipo dato Variable Horas


Falla F1 84
Censurado S1 91
Falla F2 122
Falla F3 274

• Determine un modelo adecuado

Fuente: Ben-Daya, M., Duffuaa, S. O., Raouf, A., Knezevic, J., & Ait-Kadi, D. (Eds.). (2009). Handbook of maintenance management and
engineering (Vol. 7). London: Springer.
EJEMPLO 2

• Consideremos que emplearemos Median Rank Regression

• Primeramente necesitamos ordenar los datos.

• Debido a que nuestro dato S1 es censurado, tenemos tres posibles


opciones de orden:

Variable Horas Opción 1 Opción 2 Opción 3


F1 84 F1 F1 F1
S1 91 S1 -> F F2 F2
F2 122 F2 S1 -> F F3
F3 274 F3 F3 S1 -> F
EJEMPLO 2
Opción 1 Opción 2 Opción 3
F1 F1 F1
• Para el dato de falla F1 :
S1 -> F F2 F2
• Siempre tendrá el primer orden. i=1
F2 S1 -> F F3
F3 F3 S1 -> F

• Para el dato de falla F2:


• Tiene dos veces un i=2 𝑖𝐹2 =
2∗2+1∗3
= 2.33
3
• Tiene una vez un i=3

• Para el dato de falla F3: 𝑖𝐹3 =


2∗4+1∗3
= 3.66
3
• Tiene dos veces un i=4
• Tiene una vez un i=3
EJEMPLO 2

• Conociendo el orden de los datos de falla podemos calcular Median Rank

• Para este caso, n=4.

• Obtenemos Media Rank. Ahora podemos estimar los parámetros de Weibull.


MÉTODO DE JOHNSON

• Encontrar todas las opciones posibles para una mezcla de datos de fallas y
datos censurados podría ser extenso en la práctica.

• Es decir, calcular el número de orden promedio para cada falla sería una tarea
muy lenta.

• Johnson, planteó la siguiente aproximación

Fuente: Ben-Daya, M., Duffuaa, S. O., Raouf, A., Knezevic, J., & Ait-Kadi, D. (Eds.). (2009). Handbook of maintenance management and
engineering (Vol. 7). London: Springer.
EJEMPLO 2

• Volviendo al ejemplo 2

Variable Horas 4+1 −1


F1 84 𝑖𝑛𝑐𝐹2 = = 1.33
1+2
S1 91
F2 122
F3 274

• Orden previo a F2, es 1 𝑖𝐹2 = 1 + 1.33 = 2.33


• n =4 𝑖𝐹3 = 2.33 + 1.33 = 3.66
• Datos después de S1 = 2
EJEMPLO 3

Fuente: Ben-Daya, M., Duffuaa, S. O., Raouf, A., Knezevic, J., & Ait-Kadi, D. (Eds.). (2009). Handbook of maintenance management and
engineering (Vol. 7). London: Springer.
EJEMPLO 3

• Aplicando el método de Johnson obtenemos el orden ajustado

Variable Horas Orden Inc


F1 500 1
F2 620 2
S1 780
S2 830
F3 850 3.4 1.4
F4 970 4.8
S3 990
F5 1150 6.9 2.1
EJEMPLO 3

• Finalmente obtenemos el Median Rank

Median
Variable Horas Orden
Rank
F1 500 1 0.083
F2 620 2 0.202
F3 850 3.4 0.369
F4 970 4.8 0.536
F5 1150 6.9 0.786

• A partir del Median Rank podemos estimar los parámetros de Weibull


Sugerencias:
- Resuelva los ejercicios
propuestos

También podría gustarte