Ife Data Analysis: Presentado Por: Dheybi Cervan Dcervanp@uni - Pe

LIFE DATA ANALYSIS
Presentado por:
Dheybi Cervan
dcervanp@uni.pe
CONTENIDO
• Introducción
• Estadística básica y aproximaciones
• Regresión lineal simple
• Median Rank Regression
• Datos censurados
RELACIÓN ENTRE EL MODELO Y EL MUNDO REAL
• A través de la estadística, emplearemos nuestros datos de campo para

crear un modelo
• A través de la probabilidad, emplearemos nuestro modelo para estimar un

comportamiento de la realidad
SELECCIÓN DEL MODELO ADECUADO
• Nuestros gráficos elaborados a partir de la data deben ser similares a los

formulados teóricamente.
OBJETIVO
• El objetivo es :
Determinar la distribución adecuada para nuestros datos
• Las distribuciones que se analizaran son:
Exponencial → estimar parámetro lambda

Weibull → estimar parámetros alfa y beta
RECOLECCIÓN DE DATOS
• Los datos de falla son las edades (y posiblemente el uso en caso de falla) de
los componentes que fallaron durante el período de recopilación de datos.
• Los datos censurados son los datos de los componentes que se pusieron en
funcionamiento pero que no fallaron durante el período de recopilación de
datos.
CONTENIDO
• Introducción
EJEMPLO 1: DATOS COMPLETOS
• Se registran nueve veces hasta la falla de un generador diesel. Los datos de

falla son lo siguientes:
# t (days)
1 17.3
2 31.3
3 45.9
4 22.1
5 78.3
6 2.3
7 8.1
8 11.3
9 4.8
• Considerando la premisa “as good as new”, se busca determinar un modelo

adecuado para el generador diesel.
Fuente: Modarres, M., Kaminskiy, M. P., & Krivtsov, V. (2016). Reliability engineering and risk analysis: a practical guide. CRC press
BOX PLOT
# t (days)
1 17.3
2 31.3
3 45.9
4 22.1
5 78.3
6 2.3
7 8.1
8 11.3
9 4.8
HISTOGRAMA
# t (days)
1 17.3
2 31.3
3 45.9
4 22.1
5 78.3
6 2.3
7 8.1
8 11.3
9 4.8
DENSIDAD
# Cantidad % densidad
1 5 56% 0.0278
2 2 22% 0.0111
3 1 11% 0.0056
4 1 11% 0.0056
total 9 100%
Para cada intervalo

0.56/20 = 0.0278
ECDF : EMPIRICAL CUMULATIVE DISTRIBUTION FUNCTION
෠
• Esta función 𝐹(𝑡) es equivalente a la función 𝐹(𝑡), su forma depende de
nuestros datos.
• Para elaborar la ECDF se requiere ordenar nuestros datos.
• Los datos ordenados están dados por 𝑦 = 𝑦1 , 𝑦2 , 𝑦3 . . . 𝑦𝑛 donde 𝑦𝑖 ≤ 𝑦𝑖+1 , 𝑖 <
𝑖, . . . , 𝑛. Luego el ECDF es dado por:
0 𝑦 < 𝑦1
෠ 𝑖
𝐹(𝑡) = 𝑦𝑖 ≤ 𝑦 < 𝑦𝑖+1 , 𝑖 < 𝑖, . . . , 𝑛 − 1
𝑛
1 𝑦 ≥ 𝑦𝑛
ECDF : EJEMPLO
# t (days) F'(t)
1 2.3 0.11
2 4.8 0.22
3 8.1 0.33
4 11.3 0.44
5 17.3 0.56
6 22.1 0.67
7 31.3 0.78
8 45.9 0.89
9 78.3 1.00
MEDIAN RANK
෠
Una estimación aproximada para el cálculo del 𝐹(𝑡) es mediante la aproximación
de Benard (denominada Median Rank).
La fórmula de la aproximación de Benard está dada por:
𝑖 − 0.3
෠
𝐹(𝑡) ≈
𝑛 + 0.4
Donde:
• Los datos están dados por 𝑦 = 𝑦1 , 𝑦2 , 𝑦3 . . . 𝑦𝑛
• Se cumple que
• 𝑖 es la jerarquía o posición de los datos.
• 𝑛 la cantidad total de datos
MEDIAN RANK : EJEMPLO 1
Median
# t (days)
Rank
1 2.3 0.07
2 4.8 0.18
3 8.1 0.29
4 11.3 0.39
5 17.3 0.50
6 22.1 0.61
7 31.3 0.71
8 45.9 0.82
9 78.3 0.93
MEAN RANK
෠
Otra estimación aproximada para el cálculo del 𝐹(𝑡) es mediante Mean Rank.
La fórmula de la aproximación está dada por:
𝑖
෠
𝐹(𝑡) ≈
𝑛+1
Donde:
• Los datos están dados por 𝑦 = 𝑦1 , 𝑦2 , 𝑦3 . . . 𝑦𝑛
• Se cumple que
• 𝑖 es la jerarquía o posición de los datos.
• 𝑛 la cantidad total de datos
MEAN RANK: EJEMPLO 1
Mean
# t (days)
Rank
1 2.3 0.10
2 4.8 0.20
3 8.1 0.30
4 11.3 0.40
5 17.3 0.50
6 22.1 0.60
7 31.3 0.70
8 45.9 0.80
9 78.3 0.90
APROXIMACIONES DE F(T)
CONTENIDO
• Introducción
REGRESIÓN LINEAL SIMPLE: FORMULACIÓN
Fuente: Elaboración propia

REGRESIÓN LINEAL SIMPLE: REPRESENTACIÓN GRÁFICA
Fuente: Elaboración propia

CORRELACIÓN
r2=0.98 r2=0.56 r2=0.25 r2=0.062
r2=0.98 r2=0.56 r2=0.25 r2=0.062

COEFICIENTE DE CORRELACIÓN Y DETERMINACIÓN
• Coeficiente de correlación ( R)
• Varía de -1 a 1.
• Indica la dirección y fuerza de relación entre la variable X e Y.
• Coeficiente de determinación (R2)

• Varía de 0 a 1.
• Valores cercanos a 1 indican un ajuste perfecto
FACTORES CLAVE PARA UNA BUENA REGRESIÓN LÍNEA SIMPLE
Los factores clave en un regresión simple son:
• Coeficiente de determinación (R2), sea cercano a 1.
• Coeficiente de regresión asociado a la variable X no sea un valor cercano a

cero.
CONTENIDO
• Introducción
MEDIAN RANK REGRESSION
El método consiste en:
1. Estimar 𝐹෠ 𝑡 en base a la aproximación de Bernards
෠
2. Linealizar 𝐹(𝑡)
෠
3. Realizar una regresión entre 𝐹(𝑡) y𝑡
4. Determinar los parámetros en base a la regresión

CASO EXPONENCIAL
• Para el caso de la distribución exponencial tenemos lo siguiente:
𝐹(𝑡) = 1 − 𝑒 −𝜆𝑡
1 − 𝐹(𝑡) = 𝑒 −𝜆𝑡
1
= 𝑒 𝜆𝑡
1 − 𝐹(𝑡)
1
𝑙𝑛 = 𝜆𝑡
1 − 𝐹(𝑡)
CASO EXPONENCIAL
Si consideramos que:
1
𝑦 = 𝑙𝑛
1 − 𝐹(𝑡)
Tenemos una ecuación lineal de la siguiente forma:
𝑦 = 𝜆𝑡
Esta ultima expresión es una ecuación lineal

CASO EXPONENCIAL
෠
Análogamente, nuestra función 𝐹(𝑡) la podemos transformar para obtener un 𝑦.
ො
Tendriamos una ecuación lineal de la siguiente forma:
መ +𝛽
𝑦ො = 𝜆𝑡
Para hallar el valor de 𝜆መ emplearemos la regresión lineal simple.

EJEMPLO 1
Median
# t (days) ln(1/(1-F(t)))
Rank
1 2.3 0.07 0.08
2 4.8 0.18 0.20
3 8.1 0.29 0.34
4 11.3 0.39 0.50
5 17.3 0.50 0.69
6 22.1 0.61 0.93
7 31.3 0.71 1.25
8 45.9 0.82 1.71
9 78.3 0.93 2.60
Lambda = 0.0333
GRAFICANDO
CASO WEIBULL
CASO WEIBULL
EJEMPLO
Median
# t (days) ln(t) ln(ln(1/(1-F(t))))
Rank
1 2.3 0.07 0.83 -2.56
2 4.8 0.18 1.57 -1.61
3 8.1 0.29 2.09 -1.08
4 11.3 0.39 2.42 -0.69
5 17.3 0.50 2.85 -0.37
6 22.1 0.61 3.10 -0.07
7 31.3 0.71 3.44 0.22
8 45.9 0.82 3.83 0.54
9 78.3 0.93 4.36 0.95
beta = 0.9857
alfa = exp(-3.2/beta)
alfa = 25.74
GRAFICANDO
COMPARANDO LAS ESTIMACIONES EXPONENCIAL Y WEIBULL
¿Cuál es mejor? ¿Exponencial o weibull?

CONTENIDO
• Introducción
RECOLECCIÓN DE DATOS
• Los datos de falla son las edades (y posiblemente el uso en caso de falla) de
los componentes que fallaron durante el período de recopilación de datos.
• Los datos censurados son los datos de los componentes que se pusieron en
funcionamiento pero que no fallaron durante el período de recopilación de
datos.
TIPO DE DATOS
Se tienen dos tipos de datos

• Completos: donde el 100% de nuestros datos son fallas (failure data)
• Incompletos: donde se tienen datos censurados y de falla.
• Se tienen 3 tipos de censura:

• Right censored or suspended data
• Interval censored
• Left censored
TIPOS DE MEDICIÓN
Failure data
Right censored Tiempo
Medición
Falla
Interval censored
Intervención
Left censored
EJEMPLO 2
• Considere los siguientes datos de medición
Tipo dato Variable Horas

Falla F1 84
Censurado S1 91
Falla F2 122
Falla F3 274
• Determine un modelo adecuado
Fuente: Ben-Daya, M., Duffuaa, S. O., Raouf, A., Knezevic, J., & Ait-Kadi, D. (Eds.). (2009). Handbook of maintenance management and
engineering (Vol. 7). London: Springer.
EJEMPLO 2
• Consideremos que emplearemos Median Rank Regression
• Primeramente necesitamos ordenar los datos.
• Debido a que nuestro dato S1 es censurado, tenemos tres posibles

opciones de orden:
Variable Horas Opción 1 Opción 2 Opción 3

F1 84 F1 F1 F1
S1 91 S1 -> F F2 F2
F2 122 F2 S1 -> F F3
F3 274 F3 F3 S1 -> F
EJEMPLO 2
Opción 1 Opción 2 Opción 3
F1 F1 F1
• Para el dato de falla F1 :
S1 -> F F2 F2
• Siempre tendrá el primer orden. i=1
F2 S1 -> F F3
F3 F3 S1 -> F
• Para el dato de falla F2:

• Tiene dos veces un i=2 𝑖𝐹2 =
2∗2+1∗3
= 2.33
3
• Tiene una vez un i=3
• Para el dato de falla F3: 𝑖𝐹3 =

2∗4+1∗3
= 3.66
3
• Tiene dos veces un i=4
• Tiene una vez un i=3
EJEMPLO 2
• Conociendo el orden de los datos de falla podemos calcular Median Rank
• Para este caso, n=4.
• Obtenemos Media Rank. Ahora podemos estimar los parámetros de Weibull.

MÉTODO DE JOHNSON
• Encontrar todas las opciones posibles para una mezcla de datos de fallas y
datos censurados podría ser extenso en la práctica.
• Es decir, calcular el número de orden promedio para cada falla sería una tarea
muy lenta.
• Johnson, planteó la siguiente aproximación
EJEMPLO 2
• Volviendo al ejemplo 2
Variable Horas 4+1 −1

F1 84 𝑖𝑛𝑐𝐹2 = = 1.33
1+2
S1 91
F2 122
F3 274
• Orden previo a F2, es 1 𝑖𝐹2 = 1 + 1.33 = 2.33

• n =4 𝑖𝐹3 = 2.33 + 1.33 = 3.66
• Datos después de S1 = 2
EJEMPLO 3
EJEMPLO 3
• Aplicando el método de Johnson obtenemos el orden ajustado
Variable Horas Orden Inc

F1 500 1
F2 620 2
S1 780
S2 830
F3 850 3.4 1.4
F4 970 4.8
S3 990
F5 1150 6.9 2.1
EJEMPLO 3
• Finalmente obtenemos el Median Rank
Median
Variable Horas Orden
Rank
F1 500 1 0.083
F2 620 2 0.202
F3 850 3.4 0.369
F4 970 4.8 0.536
F5 1150 6.9 0.786
• A partir del Median Rank podemos estimar los parámetros de Weibull

Sugerencias:
- Resuelva los ejercicios
propuestos

Ife Data Analysis: Presentado Por: Dheybi Cervan Dcervanp@uni - Pe

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ife Data Analysis: Presentado Por: Dheybi Cervan Dcervanp@uni - Pe

Cargado por

Copyright:

Formatos disponibles

LIFE DATA ANALYSIS

• A través de la estadística, emplearemos nuestros datos de campo para

• A través de la probabilidad, emplearemos nuestro modelo para estimar un

• Nuestros gráficos elaborados a partir de la data deben ser similares a los

Determinar la distribución adecuada para nuestros datos

• Las distribuciones que se analizaran son:

Exponencial → estimar parámetro lambda

• Se registran nueve veces hasta la falla de un generador diesel. Los datos de

• Considerando la premisa “as good as new”, se busca determinar un modelo

Para cada intervalo

Fuente: Elaboración propia

Fuente: Elaboración propia

r2=0.98 r2=0.56 r2=0.25 r2=0.062

r2=0.98 r2=0.56 r2=0.25 r2=0.062

• Coeficiente de determinación (R2)

Los factores clave en un regresión simple son:

• Coeficiente de determinación (R2), sea cercano a 1.

• Coeficiente de regresión asociado a la variable X no sea un valor cercano a

El método consiste en:

1. Estimar 𝐹෠ 𝑡 en base a la aproximación de Bernards

4. Determinar los parámetros en base a la regresión

• Para el caso de la distribución exponencial tenemos lo siguiente:

Tenemos una ecuación lineal de la siguiente forma:

Esta ultima expresión es una ecuación lineal

Para hallar el valor de 𝜆መ emplearemos la regresión lineal simple.

¿Cuál es mejor? ¿Exponencial o weibull?

Se tienen dos tipos de datos

• Incompletos: donde se tienen datos censurados y de falla.

• Se tienen 3 tipos de censura:

Right censored Tiempo

• Considere los siguientes datos de medición

Tipo dato Variable Horas

• Determine un modelo adecuado

• Consideremos que emplearemos Median Rank Regression

• Primeramente necesitamos ordenar los datos.

• Debido a que nuestro dato S1 es censurado, tenemos tres posibles

Variable Horas Opción 1 Opción 2 Opción 3

• Para el dato de falla F2:

• Para el dato de falla F3: 𝑖𝐹3 =

• Conociendo el orden de los datos de falla podemos calcular Median Rank

• Para este caso, n=4.

• Obtenemos Media Rank. Ahora podemos estimar los parámetros de Weibull.

• Johnson, planteó la siguiente aproximación

Variable Horas 4+1 −1

• Orden previo a F2, es 1 𝑖𝐹2 = 1 + 1.33 = 2.33

• Aplicando el método de Johnson obtenemos el orden ajustado

Variable Horas Orden Inc

• Finalmente obtenemos el Median Rank

• A partir del Median Rank podemos estimar los parámetros de Weibull

También podría gustarte