Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Actividad 1 - M1 Problemas Estadistica
Actividad 1 - M1 Problemas Estadistica
Pag
Introducción 3
Problema 1 6
Problema 2 8
Problema 3 10
Problema 4 13
Conclusión 16
2
Company Use
Introducción.
Con las mediciones de una característica de calidad, el primer aspecto a investigar consiste en conocer la
tendencia central de los datos, es decir, identificar un valor en torno al cual los datos tienden a aglomerarse o
concentrarse. Esto permitirá saber si el proceso está centrado; es decir, si la tendencia central de la variable de
salida es igual o está muy próxima a un valor nominal deseado A continuación veremos tres medidas de la
tendencia central: la media, la mediana y la moda.
Media muestral
Supongamos que x1, x2, x3,..., xn son las observaciones numéricas de una muestra; entonces, la medida más
usual de su tendencia central es proporcionada por la media (o promedio) muestral, que es igual a la media
aritmética de todos los datos:
es decir, la media muestral se obtiene sumando todos los datos y el resultado de la suma se divide entre el
número de datos (n).
Si para calcular la media se utilizan todos los elementos de la población (todos los posibles individuos,
especímenes, objetos o medidas de interés sobre los que se hace un estudio), por ejemplo, el grosor de todos
los discos producidos en la última semana o mes, entonces el promedio calculado es la media del proceso (o
media poblacional) y se denota con la letra griega μ (mu).
Es importante destacar que la media del proceso μ es igual a cierto valor, aunque no siempre se conoce;
mientras que el valor de X– se obtiene para cada muestra y es diferente (variable) de una muestra a otra, ya
que su valor depende de las piezas que se seleccionan (X– es una variable aleatoria). Por lo anterior, el valor
que se observa de la media muestral, X–, por lo general es diferente a la media del proceso, μ. Luego, es
preciso tener cuidado con las afirmaciones basadas en X– sobre la media del proceso o población.
Mediana o percentil 50
Otra medida de tendencia central de un conjunto de datos es la mediana X~, que es igual al valor que divide a
la mitad a los datos cuando son ordenados de menor a mayor. Así, para calcular la mediana cuando el número
de datos es impar, éstos se ordenan de manera creciente y el que quede en medio de dicho ordenamiento será
la mediana. Pero si el número de datos es par, entonces la mediana se calcula dividiendo entre dos la suma de
los números que están en el centro del ordenamiento.
Moda
Otra forma de medir la tendencia central de un conjunto de datos es mediante la moda, que es igual al dato que
se repite más veces. Si varios datos se repiten el mismo número de veces, entonces cada uno de ellos es una
moda, y se dice que el conjunto de datos es multimodal. La función MODA( ) de Excel calcula la moda de un
conjunto de datos.
Releja la variabilidad de un proceso. Para su cálculo se debe utilizar un número grande de datos que hayan
sido obtenidos en el transcurso de un lapso amplio. Se denota con la letra griega sigma σ.
Company Use
Rango
Medición de la variabilidad de un conjunto de datos que es resultado de la diferencia entre el dato mayor y el
dato menor de tal conjunto.
Coeficiente de variación
Medida de variabilidad que indica la magnitud relativa de la desviación estándar en comparación con la media.
Es útil para contrastar la variación de dos o más variables que están medidas en diversas escalas.
4
Company Use
Objetivo.
Aplicar de manera sumamente práctica las herramientas de estadística para el análisis de datos en un caso
práctico de proyecto de mejora.
En una fábrica de remolques se quiere realizar un proyecto de optimización para reducir el consumo de pintura
utilizada por remolque. Después de un análisis de proceso se llegó a la conclusión que las variables que
pueden afectar el consumo son:
Company Use
1. La estadística descriptiva de las variables continúas y establece conclusiones de sus tendencias
centrales, rango, intervalos de confianza.
Intervalo de confianza
Company Use
Normal Confidence Interval (Mean) Normal Confidence Interval (Mean) Normal Confidence Interval (Mean)
User defined param eters User defined parameters Use r de fined param eters
Sample Size (n) 32 Sample Size (n) 32 Sample Size (n) 32
Sample Avg 15.725 Sample Avg 33 Sample Avg 190
Sample Standard Dev 2.9 Sample Standard Dev 2.9 Sample Standard Dev 15.44
Confidence Level 95.00% Confidence Level 95.00% Confidence Level 95.00%
12 12
10 10
Frequency
Frequency
8 8
6 6
4 4
2 2
0 0
10 12 14 16 18 20 22 26 28 30 32 34 36 38 40
Cantidad de recubrimiento gr/ l Tiempo de secado Pintura min.
10
Frequency
0
156 168 180 192 204 216 228 240
Aplicación total remolque Kg
Conclusiones de Histograma:
Para las 3 variables se observan procesos descentrados con mucha variabilidad, para las 2 primeras variables
se observa un mejor comportamiento dado que su desviación estándar es menor en este caso 2.89, recordando
que la desviación estándar es el desplazamiento de los datos con respecto a le media poblacional, en la ultima
variable se observa una mayor dispersión al tener una deviación estándar mayor en este caso 15.44
Company Use
2. Realiza una identificación de la distribución de probabilidad y determina a qué tipo de distribuciones se
ajusta cada una de las variables continuas.
Percent
95
AD 4.335 50
0.1 Ref P
90
P-Value <0.005
80 10 0.0
0.2 0.4 0.6 0.8 1.0 1.2
70
Z Value
Percent
60 1
10 15 20 25
(P-Value = 0.005 means ≤ 0.005)
50
40 Probability Plot for Transformed Data
30
99
N 32
20 AD 0.417
P-Value for Best Fit: 0.312479
90 P-Value 0.312
10 Z for Best Fit: 0.55
Best Transformation Type: SU
Percent
5 Transformation function equals
50
-0.788594 + 0.569621 × Asinh( ( X - 13.9862 ) / 0.221437 )
1 10
5 10 15 20 25
Cantidad de recubrimiento gr/ l 1
-2 0 2 4
De acuerdo a nuestra variable de “cantidad de recubrimiento” no se ajusta a una distribución normal, dado que
el P-value es < 0.005 (No se ajusta).
Derivado que nuestra prueba de normalidad esta rechazada derivado del p-value, dado que los datos no siguen
una distribución normal se opta por una distribución de Johnson.
AD 4.335 50
0.1 Ref P
90
P-Value <0.005
80 10 0.0
0.2 0.4 0.6 0.8 1.0 1.2
70
Z Value
Percent
60 1
25 30 35 40
50 (P-Value = 0.005 means ≤ 0.005)
40
Probability Plot for Transformed Data
30
99
N 32
20
AD 0.417
P-Value for Best Fit: 0.312479
90 P-Value 0.312
10 Z for Best Fit: 0.55
Best Transformation Type: SU
Percent
1 10
25.0 27.5 30.0 32.5 35.0 37.5 40.0 42.5
Tiempo de secado Pintura min. 1
-2 0 2 4
De acuerdo a nuestra variable de “tiempo de secado” no se ajusta a una distribución normal, dado que el P-
value es < 0.005 (No se ajusta).
Derivado que nuestra prueba de normalidad esta rechazada derivado del p-value, dado que los datos no siguen
una distribución normal se opta por una distribución de Johnson.
8
Company Use
Johnson Transformation for Aplicación total remolque Kg
Probability Plot of Aplicación total remolque Kg
Probability Plot for Original Data Select a Transformation
Normal - 95% CI
99 0.7
N 32 0.20
99
Percent
0.10 Ref P
AD 4.247 50
90 0.05
P-Value <0.005
80 10 0.00
0.2 0.4 0.6 0.8 1.0 1.2
70
Z Value
Percent
60 1
150 175 200 225
50 (P-Value = 0.005 means ≤ 0.005)
40
Probability Plot for Transformed Data
30
99
N 32
20
AD 0.497
P-Value for Best Fit: 0.197764
90 P-Value 0.198
10 Z for Best Fit: 0.7
Best Transformation Type: SB
Percent
5 Transformation function equals
50
2.11718 + 0.574667 × Ln( ( X - 179.552 ) / ( 297.855 - X ) )
1 10
150 175 200 225 250
Aplicación total remolque Kg 1
-2 0 2 4
De acuerdo a nuestra variable de “aplicación total remolque” no se ajusta a una distribución normal, dado que el
P-value es < 0.005 (No se ajusta).
Derivado que nuestra prueba de normalidad esta rechazada derivado del p-value, dado que los datos no siguen
una distribución normal se opta por una distribución de Johnson.
Cantidad de recubrimiento gr/ l: Se ajusta a al Transformacion de Jhonson, debido a que su valor p= 0.312
Tiempo de secado Pintura min.: Se ajusta a al Transformacion de Jhonson, debido a que su valor p= 0.312
Aplicación total remolque Kg: Se ajusta a al Transformacion de Jhonson, debido a que su valor p= 0.197
9
Company Use
3. Mediante una gráfica de corridas determina cuál de las variables se encuentra en descontrol y cuáles
son los comportamientos de descontrol que presentaría cada variable si es que esta en descontrol.
20
18
16
14
12
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32
Observation
Number of runs about median: 2 Number of runs up or down: 13
Expected number of runs: 17.0 Expected number of runs: 21.0
Longest run about median: 16 Longest run up or down: 8
Approx P-Value for Clustering: 0.000 Approx P-Value for Trends: 0.000
Approx P-Value for Mixtures: 1.000 Approx P-Value for Oscillation: 1.000
38
36
34
32
30
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32
Observation
Number of runs about median: 2 Number of runs up or down: 13
Expected number of runs: 17.0 Expected number of runs: 21.0
Longest run about median: 16 Longest run up or down: 8
Approx P-Value for Clustering: 0.000 Approx P-Value for Trends: 0.000
Approx P-Value for Mixtures: 1.000 Approx P-Value for Oscillation: 1.000
230
220
210
200
190
180
2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 32
Observation
Number of runs about median: 12 Number of runs up or down: 14
Expected number of runs: 17.0 Expected number of runs: 21.0
Longest run about median: 9 Longest run up or down: 9
Approx P-Value for Clustering: 0.036 Approx P-Value for Trends: 0.001
Approx P-Value for Mixtures: 0.964 Approx P-Value for Oscillation: 0.999
Conclusiones:
Existe una tendencia gradual sostenida en los datos a partir de la muestra 24, hacia arriba. Las tendencias para
las 3 variables nos muestra que el proceso se saldrá de control pronto. Con esta herramienta de run chart nos
advierte si el proceso esta en control o no.
10
Company Use
4. Realiza un ANOVA entre calidad de acabado y consumo de pintura por remolque y establece si la
primera es significativa con respecto a la segunda.
205
Aplicación total remolque Kg
200
195
190
185
180
175
buena regular
Calidad de acabado
The pooled standard deviation is used to calculate the intervals.
Method
Factor Information
Analysis of Variance
Adj
Source DF Adj SS MS F-Value P-Value
Calidad de acabado 1 2508 2508.1 15.42 0.000
Error 30 4879 162.6
11
Company Use
Total 31 7387
Model Summary
Means
Calidad de
acabado N Mean StDev 95% CI
buena 1 181.194 1.569 (174.683, 187.705)
6
regular 1 198.90 17.97 (192.39, 205.41)
6
Pooled StDev = 12.7525
Conclusiones:
De acuerdo al ANOVA one way, se puede deducir que un valor alto en la aplicación total remolque Kg implica
un acabado “Regular”, de acuerdo a los datos mostrados.
Company Use
5. Realiza análisis de regresión lineal para las demás variables y el consumo de pintura y determina
cuales son significativas, el valor del r2 para cada una de las regresiones y en que valores es
conveniente trabajar para optimizar o en este caso disminuir el consumo de pintura.
12
24
Cantidad de recubrimiento gr/ l
22
20
18
16
14
12
180 190 200 210 220 230 240
Aplicación total remolque Kg
D
Source F Adj SS Adj MS F-Value P-Value
Regression 1 6506.33 6506.33 221.67 0.000
Cantidad de recubrimiento gr/ l 1 6506.33 6506.33 221.67 0.000
Error 30 880.55 29.35
Lack-of-Fit 21 796.51 37.93 4.06 0.018
Pure Error 9 84.04 9.34
Total 31 7386.88
Model Summary
Company Use
P-
Term Coef SE Coef T-Value Value VIF
Constant 111.47 5.36 20.78 0.000
Cantidad de recubrimiento gr/ l 4.997 0.336 14.89 0.000 1.00
Regression Equation
13
Aplicación total remolque Kg = 111.47 + 4.997 Cantidad de recubrimiento gr/ l
Fits and Diagnostics for Unusual Observations
Aplicación
total
Obs remolque Kg Fit Resid Std Resid
26 194.80 208.91 -14.11 -2.72 R
31 238.40 221.40 17.00 3.47 R
32 222.30 223.90 -1.60 -0.33 X
R Large residual
X Unusual X
Pearson 0.939
correlation
P-value 0.000
Conclusion:
De acuerdo al valor de R 93.9 % existe una fuerte relación entre las 2 variables.
Company Use
Scatterplot of Tiempo de secado Pintura vs Aplicación total remolqu
42 14
40
Tiempo de secado Pintura min.
38
36
34
32
30
D
Source F Adj SS Adj MS F-Value P-Value
Regression 1 6506.33 6506.33 221.67 0.000
Tiempo de secado Pintura min. 1 6506.33 6506.33 221.67 0.000
Error 30 880.55 29.35
Lack-of-Fit 21 796.51 37.93 4.06 0.018
Pure Error 9 84.04 9.34
Total 31 7386.88
Model Summary
P-
Term Coef SE Coef T-Value Value VIF
Company Use
Constant 26.5 11.0 2.41 0.022
Tiempo de secado Pintura min. 4.99 0.336 14.89 0.000 1.00
7
Regression Equation
= 26.5 + 4.997 Tiempo de secado Pintura min.
Conclusion:
De acuerdo al valor de R 93.9 % existe una fuerte relación entre las 2 variables.
NOTA: Hay que recordar que de acuerdo a la regla de dedo, arriba del 80 % se considera una fuerte
correlación entre 2 variables.
Conclusión general:
En base al trabajo anterior podemos concluir que la estadística descriptiva es muy útil en el análisis de datos
para encontrar el origen del descontrol de los procesos, además la herramienta de software minitab es muy útil
en la elaboración de este tipo de análisis.
Como sabemos este tipo de análisis es un pilar ante la solución de problemas, esta clase de herramientas
estadísticas son el parteaguas de la solución de problemas de cualquier índole, el ser capaz de identificar
patrones de comportamiento y tendencias, nos ayudara en una toma de decisiones mas ágil para mitigar
cualquier tipo de problema.
Company Use
16
Referencias bibliográficas:
Company Use
Company Use