Está en la página 1de 20

02/02/2013

1
Ajuste
distribucional
The way statisticians look at variation is
through the lens of distributions.
Identificando el modelo distribucional que
mejor se ajusta a los datos

Elaborado por A. Mayorga Noviembre
2012
Distribuciones
La variacin es una realidad detectable en todo sistema y entidad.
Los estadsticos miran la variacin a travs de una lente llamada
distribucin.

Modelamos este
tipo de variacin
como siendo
generada por un
proceso aleatorio.
Variacin
Patrones,
regularidades en
los datos
Ruido, variacin
inherente,
fluctuacin
Es la
variacin
que queda
cuando
removemos
los
patrones
Shewhart (1931) la
denomin variacin
incontrolada.
Los Modelos de
Regresin son los
ms simples de estos
modelos.
Elaborado por A. Mayorga
Noviembre 2012
02/02/2013
2
La variacin es una realidad observable
Parte de esa variacin puede ser explicada
Otra parte de esa variacin no puede ser
explicada
La variacin aleatoria es la manera en que
los estadsticos modelan la variacin
inexplicable
La variacin inexplicable puede estar
producida por un proceso de muestreo
aleatorio
De acuerdo con
Shewhart, estas
fluctuaciones son debidas
a los efectos del azar o
de causas desconocidas.
Las variaciones
aleatorias pueden ser
producidas por un
sistema variable o por un
sistema constante de
causas aleatorias.
Si esta variacin esta producida por
un sistema constante, sta puede
predecirse mediante modelos
probabilsticos. Elaborado por A. Mayorga
Noviembre 2012
Distribuciones
Estn asociadas con la variacin que
podemos observar (en una manera
imperfecta)
Nos informan acerca del
comportamiento de los
datos
Son conceptos constructivos
clave para los modelos
estadsticos
La frecuencia emprica o
distribucin observada de
nuestra variable contiene la
variacin que podemos
observar directamente en
nuestros datos
Concebimos la variacin
inexplicable contenida en
nuestros datos como siendo
generada por alguna
distribucin desconocida.
Nos referimos a ella como
distribucin subyacente,
an cuando es solo una
entidad conceptual.
Existe aqu un componente
inferencial, solo una
descripcin de lo que existe
en los datos.
Esta es la distribucin
terica, la cual define o
describe un modelo de
probabilidad.

= ()


= ()
Elaborado por A. Mayorga
Noviembre 2012
02/02/2013
3
Nunca podremos creer
completamente en
nuestra distribucin
terica seleccionada.
Lo mejor que podemos
esperar es que el acto de
muestrear desde una
distribucin terica propuesta
refleje en una manera
adecuada los aspectos ms
importantes del proceso que
gener nuestros datos ...
Es esta falta de veracidad en la
distribucin terica propuesta
la que nos conduce a
consideraciones de robustez
de la distribucin terica y de
bondad de ajuste de la
distribucin terica a la
distribucin emprica.
Elaborado por A. Mayorga
Noviembre 2012
Robustez:
Deseamos utilizar procedimientos
que sean insensibles a las
desviaciones de los supuestos
distribucionales
Bondad de ajuste:
Deseamos evitar la utilizacin
de distribuciones tericas que
en una manera demostrada
no se ajusten a nuestros datos.
La experiencia nos muestra
que, virtualmente en
cualquier situacin, toda
suposicin terica acerca
de la distribucin que
deseamos utilizar se
mostrar implausible dada
una considerable cantidad
de datos.
Elaborado por A. Mayorga
Noviembre 2012
02/02/2013
4
La primera regla al seleccionar un
modelo distribucional consiste en
no realizar ninguna evaluacin
que no posea base tcnica.
Es inadmisible someter un
conjunto de datos a
procedimientos matemticos
sin tomar en consideracin el
proceso que genera los datos.
Es mejor identificar el
modelo distribucional
que se esperara para
este tipo de proceso y
someterlo a
verificacin.
8
La primera cuestin por resolver durante el estudio de un proceso es hallar
el modelo probabilstico que describira el comportamiento ideal
(perfecto) del proceso para una variable seleccionada.
Hay a disposicin una gran gama de modelos probabilsticos para
variables continuas: Normal, Lognormal, Exponencial, Weibull, Gamma,
etc.
No todos ellos son adecuados para describir el comportamiento de una
variable de proceso.
Existen variables que pueden tomar valores
en ambas direcciones respecto del valor
objetivo (T).
Este tipo de variables posee un lmite inferior
(LSL) y un lmite superior (USL) de
especificacin.
Existen otras variables que solo permiten
desviaciones unidireccionales respecto del
valor objetivo.
Es decir, estas variables no poseen un valor
objetivo sino slo un nico lmite de
especificacin (superior o inferior).
Es comn encontrarse situaciones en las que el analista intenta ajustar el
comportamiento distribucional de una variable del proceso sin conocer siquiera
cmo esta variable debera comportarse si el proceso fuera estable.


Elaborado por A. Mayorga
Noviembre 2012
02/02/2013
5
9
Un solo limite de especificacin
y un target
Dos limites de especificacin
y un target
Exponencial
(Caso ideal)
Gamma
Lognormal
Weibull
Normal
(Ideal)
Lognormal
Weibull
Gamma
Segn el tipo de variable por estudiar, el analista debe identificar los modelos
posibles para describir su comportamiento, as como el mtodo de anlisis.
En caso de que durante el estudio analtico se halle que ninguna de esas
distribuciones se ajusta al comportamiento esperado de la variable, es de suponer
que algo anmalo est sucediendo con el proceso o con las mediciones.
Modelos esperados para el comportamiento
de un proceso
Elaborado por A. Mayorga
Noviembre 2012
Pruebas de Bondad de Ajuste
Evaluar los supuestos distribucionales es un requerimiento para la mayora
de los procedimientos estadsticos.
El anlisis estadstico paramtrico supone una cierta distribucin de los
datos. Si este supuesto es violado la interpretacin y la inferencia pueden
no ser confiables ni vlidas.
Existen 3 tipos de pruebas de bondad de ajuste:
Pruebas basadas en la Funcin de
Distribucin Emprica (EDF)
- Kolmogorov-Smirnov (1933)
- Anderson-Darling (1954)
- Von Mises (1931)
Pruebas basadas en Correlacin y
Regresin
- Shapiro-Wilk (1965)
- Shapiro-Francia (1972)
- Ryan-Joiner (1976)
Pruebas basadas en Momentos
- DAgostino-Pearson (1973)
- Jarque-Bera (1987)
02/02/2013
6
Pruebas basadas en la Funcin de Distribucin Emprica (EDF)
La idea central en este mtodo es comparar la
funcin de distribucin emprica (EDF), la cual
se estima con base en los datos, con la funcin
de distribucin acumulada (CDF) de la
distribucin, con el fin de observar si existe un
buen acuerdo entre ellas
( )
( )
x que iguales o menores
ordenadas nes observacio de Nmero : x x N
n ,..., 2 , 1 i ,
n
x x N
) x ( F
) i (
) i (
n
= s
=
s
=
| | ) x ( F ) x ( F sup D
0 n x n
=
Kolmogorov-Smirnov Test
Este estadstico tiende a ser
ms sensible cerca del
centro de la distribucin.
F
n
(x):= Empirical Distribution
Function (EDF) estimador
F
0
(x):= Hypothesized Distribution
Function (CDF) estimador
n ,..., 2 , 1 K
x x x
n
k
x x 1
x x 0
) x ( F
1) (k (k)
(k)
(k)
n
=

< s
s
s
=
+
Ejemplo clculo F
n
(x):
Sean {0,1,2,2,4,6,6,7} los conteos
ordenados del nmero de veces que una
muestra de n=8 personas nadaron en el
ltimo mes.
7 6 6 4 2 2 1 0 x
8 7 6 5 4 3 2 1 k
) k (
8 k 7 x 1 ) x ( F
7 , 6 k 7 x 6 ) x ( F
5 k 6 x 4 ) x ( F
4 , 3 k 4 x 2 ) x ( F
2 k 2 x 1 ) x ( F
1 k 1 x 0 ) x ( F
0 x 0 ) x ( F
n
8
7
n
8
5
n
8
4
n
8
2
n
8
1
n
n
= > =
= < s =
= < s =
= < s =
= < s =
= < s =
< =
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

l
a

F
u
n
c
i

n

d
e

D
i
s
t
r
i
b
u
c
i

n

E
m
p

r
i
c
a

(
E
D
F
)

02/02/2013
7
Ejemplo aplicacin del test Kolmogorov-Smirnov (KS):
Sean
{108,112,117,130,111,131,113,113,105,128}
los tiempos en minutos desperdiciados
por una muestra aleatoria de 10
empleados durante la labor diaria,
dedicados a realizar una actividad no
laboral, tal como navegar en la internet o
enviar correos electrnicos a amigos.
Es razonable suponer que los datos
provienen de una distribucin Normal con

x
=120 min y o
x
=10 min?
Solucin:
Para este caso, H
0
:= x es NID(120,10)
H
1
:= x no es NID(120,10)
Para la distribucin normal,
(

t o
= o
2
2
2
) x (
exp
2
1
) , , x ( f
es la funcin de densidad de probabilidad
(pdf).
dt ) , , t ( f
dt
2
) t (
exp
2
1
) , , x ( F
x
x
2
2
}
}


o =
(

t o
= o
Normalizando, obtenemos:
( )
) z ( ) (
dt ) exp(
z P ) x X ( P ) x ( F
x
2
t
x
0
x
2
u = u =
=
s = s =
o


o

}
o

Cuyos valores obtenemos de la tabla de
valores de la funcin Normal
estandarizada.
As, lo primero que debemos hacer es
ordenar los datos y luego, para cada valor
de x, calcular el valor correspondiente de
o

=
x
z
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

l
a

F
u
n
c
i

n

d
e

D
i
s
t
r
i
b
u
c
i

n

E
m
p

r
i
c
a

(
E
D
F
)

1357 . 0 0 . 1 8643 . 0 1 . 1 131 10
0587 . 0 9 . 0 8413 . 0 0 . 1 130 9
009 . 0 8 . 0 7881 . 0 8 . 0 128 8
3179 . 0 7 . 0 3821 . 0 3 . 0 117 7
3580 . 0 6 . 0 2420 . 0 7 . 0 113 6
2580 . 0 5 . 0 2420 . 0 7 . 0 113 5
1881 . 0 4 . 0 2119 . 0 8 . 0 112 4
1159 . 0 3 . 0 1841 . 0 9 . 0 111 3
0849 . 0 2 . 0 1151 . 0 2 . 1 108 2
0332 . 0 1 . 0 0668 . 0 5 . 1 105 1
) x ( F ) x ( F ) x ( F ) z ( ) x ( F z x k
0 n n 0 ) k (

u =
{ }
3580 . 0
) x ( F ) x ( F sup D
0 n x n
=
=
De la tabla para valores crticos para D
n,o
,
409 . 0 D
10,0.05
=
409 . 0 D D 0.3580
10,0.05 n
= s =
Conclusin:
As, no podemos rechazar la hiptesis nula
H
0
al nivel de confianza o=0.05.
Debemos suponer que los datos se ajustan
a la distribucin Normal.
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

l
a

F
u
n
c
i

n

d
e

D
i
s
t
r
i
b
u
c
i

n

E
m
p

r
i
c
a

(
E
D
F
)

02/02/2013
8
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

l
a

F
u
n
c
i

n

d
e

D
i
s
t
r
i
b
u
c
i

n

E
m
p

r
i
c
a

(
E
D
F
)

( ) | | { } ) x ( F 1 log ) x ( F log sum n A
i 1 n o i o n
1 i 2
n , 1 i
n +

=
+ =
Anderson-Darling Test
Este estadstico tiende a ser
ms sensible cerca de las
colas de la distribucin.
F
0
(x):= Estimador de la funcin
de distribucin
acumulativa (CDF)
x
i
:= Valores ordenados
n := Tamao de muestra
AD test es comparable en
cuanto a su poder al test
de Shapiro-Wilk (SW).
Puede utilizarse para las
distribuciones Normal,
Lognormal, Exponencial,
Weibull, Extreme Value
Tipo I, as como la
distribucin Logstica.
Si


,
, donde (1-o) es el nivel de confianza seleccionado, entonces la
hiptesis nula de que los datos siguen la distribucin sujeto de comparacin
no puede ser rechazada al nivel de confianza utilizado.
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

l
a

F
u
n
c
i

n

d
e

D
i
s
t
r
i
b
u
c
i

n

E
m
p

r
i
c
a

(
E
D
F
)

02/02/2013
9
AD para distribucin Weibull
Dodson, B. The Weibull Analysis Handbook. 2006. ASQ Press
0.2 0.1 0.05 0.025 0.01
2 0.2670 0.2680 0.2855 0.2832 0.3518
3 0.3587 0.4168 0.4780 0.5253 0.7535
4 0.4005 0.4808 0.5603 0.6293 0.9283
5 0.4242 0.5157 0.6052 0.6862 1.0247
6 0.4394 0.5377 0.6333 0.7219 1.0856
7 0.4501 0.5527 0.6524 0.7462 1.1273
8 0.4579 0.5635 0.6663 0.7639 1.1577
9 0.4639 0.5717 0.6768 0.7772 1.1808
10 0.4686 0.5782 0.6850 0.7877 1.1989
15 0.4826 0.5967 0.7086 0.8179 1.2514
20 0.4894 0.6056 0.7199 0.8323 1.2766
25 0.4934 0.6108 0.7264 0.8407 1.2914
30 0.4961 0.6142 0.7307 0.8463 1.3011
35 0.4979 0.6166 0.7338 0.8502 1.3080
40 0.4994 0.6184 0.7360 0.8531 1.3131
45 0.5004 0.6197 0.7378 0.8553 1.3170
50 0.5013 0.6208 0.7392 0.8571 1.3202
55 0.5020 0.6217 0.7403 0.8585 1.3228
60 0.5026 0.6225 0.7413 0.8598 1.3249
65 0.5031 0.6231 0.7421 0.8608 1.3267
70 0.5036 0.6236 0.7427 0.8616 1.3282
75 0.5039 0.6241 0.7433 0.8624 1.3296
80 0.5043 0.6245 0.7438 0.8631 1.3307
85 0.5045 0.6249 0.7443 0.8636 1.3318
90 0.5048 0.6252 0.7447 0.8642 1.3327
95 0.5050 0.6255 0.7450 0.8646 1.3335
100 0.5052 0.6257 0.7454 0.8650 1.3342
n
o
Valores crticos (ca) para estadstico Anderson-Darling
AD para distribucin Normal
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

l
a

F
u
n
c
i

n

d
e

D
i
s
t
r
i
b
u
c
i

n

E
m
p

r
i
c
a

(
E
D
F
)

Con el fin de ajustar este estadstico segn el tamao de
muestra n utilizado y segn el tipo de distribucin comparado,
se utilizan los siguientes factores.
Distribucin Factor
Normal

1.0 +
0.75

+
2.25

2

Exponencial

1.0 +
0.6


Gamma

1.0 +
0.6

para k=1

+
0.2+
0.3

para k2
Valor Extremo

1.0 +
0.2


Weibull

1.0 +
0.2


P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

l
a

F
u
n
c
i

n

d
e

D
i
s
t
r
i
b
u
c
i

n

E
m
p

r
i
c
a

(
E
D
F
)

02/02/2013
10
Ejemplo aplicacin del test Anderson-Darling (AD): Distribucin Normal
Sean
{338.7, 308.5, 317.7, 313.1, 322.7, 294.2}
los datos resultantes de una prueba de
esfuerzo, obtenidos al azar de la misma
poblacin.
Dado que la mediana tiene un valor de
315.40 y la media un valor de 315.82, es
razonable suponer que los datos
provienen de una distribucin Normal con

x
=315.8 y o
x
=14.9?
Solucin:
Para este caso, H
0
:= x es NID(315.8,14.9)
H
1
:= x no es NID(315.8,14.9)
Para la distribucin normal,
(

t o
= o
2
2
2
) x (
exp
2
1
) , , x ( f
es la funcin de densidad de probabilidad
(pdf).
dt ) , , t ( f
dt
2
) t (
exp
2
1
) , , x ( F
x
x
2
2
}
}


o =
(

t o
= o
Normalizando, obtenemos:
( )
) z ( ) (
dt ) exp(
z P ) x X ( P ) x ( F
x
2
t
x
0
x
2
u = u =
=
s = s =
o


o

}
o

Cuyos valores obtenemos de la tabla de
valores de la funcin Normal
estandarizada.
As, lo primero que debemos hacer es
ordenar los datos y luego, para cada valor
de x, calcular el valor correspondiente de
o

=
x
z
( ) ( )
7448 . 073 . 938 . 541 . 1 7 . 338 6
1409 . 311 . 679 . 464 . 7 . 322 5
3471 . 427 . 551 . 127 . 7 . 317 4
3746 . 551 . 427 . 183 . 1 . 313 3
152 . 679 . 311 . 493 . 5 . 308 2
099 . 938 . 073 . 456 . 1 2 . 294 1
A z z z x i
2
i i 1 n i i i

+
+
+
+

u u
+
{ }
16993 . 0 A
A SUM A
2
2
i
6 , 1 I
2
=
=
=
De la tabla para valores crticos para C
o
,
6333 . 0 C
6,0.05
=
6333 . 0 C A 0.2018
6,0.05 n
= s =
Conclusin:
As, no podemos rechazar la hiptesis
nula H
0
al nivel de confianza o=0.05.
Debemos suponer que los datos se
ajustan a la distribucin Normal.
Donde
( ) ( ) | | { }
i 1 n i n
1 i 2
2
i
z log 1 log z log 1 A
+

u + u =

=
2
1.0 +
0.75

+
2.25

= 0.16993 1.0 +
0.75
6
+
2.25
36

= 0.2018
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

l
a

F
u
n
c
i

n

d
e

D
i
s
t
r
i
b
u
c
i

n

E
m
p

r
i
c
a

(
E
D
F
)

02/02/2013
11
Ejemplo aplicacin del test Anderson-Darling (AD): Distribucin Weibull
Dados los siguientes datos
{11.7216, 10.4286, 8.0204, 7.5778, 1.4298,
4.1154}
resultantes de una prueba de
confiabilidad.
Es razonable suponer que los datos
provienen de una distribucin Weibull con
o=8.7 y |=1.3?
Solucin:
Para este caso, H
0
:= x es Weibull con o=8.7
y |=1.3
Para la distribucin Weibull,
| | xt exp x ) , , x ( f
1
o o| = | o
|
es la funcin de densidad de probabilidad
(pdf).
( )
|
|
|
.
|

\
|
o
= = s =
o
= | o
i
i i
x
z con ) z ( W x X P
)
x
exp( 1 ) , , x ( F
( ) ( )
377565 . 091178 . 770845 . 47336 . 1 7216 . 11 6
063865 . 314691 . 717948 . 26167 . 1 4286 . 10 5
584017 . 566413 . 593293 . 89967 . 0204 . 8 4
223412 . 593293 . 566413 . 83166 . 5778 . 7 3
210914 . 717948 . 314691 . 37789 . 1154 . 4 2
355283 . 770845 . 091178 . 09560 . 4298 . 1 1
A z W z W z x i
2
i i 1 n i i i
+
+
+
+
+

+
{ }
3794 . 0 A
A SUM A
2
2
i
6 , 1 I
2
=
=
=
Donde
( ) ( ) | | { }
i 1 n i n
1 i 2
2
i
z W log 1 log z W log 1 A
+

+ =
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

l
a

F
u
n
c
i

n

d
e

D
i
s
t
r
i
b
u
c
i

n

E
m
p

r
i
c
a

(
E
D
F
)

=
2
1.0 +
0.2

= 0.3794 1.0 +
0.2
6

= 0.4103
De la tabla para valores crticos para
C
o
(Stephens):
757 . 0 C
0.05
=
0.757 C C A 0.4103
0.05 6,0.05 n
= s s =
Conclusin:
As, no podemos rechazar la hiptesis
nula H
0
al nivel de confianza o=0.05.
Debemos suponer que los datos se
ajustan a la distribucin Weibull con
o=8.7 y |=1.3.
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

l
a

F
u
n
c
i

n

d
e

D
i
s
t
r
i
b
u
c
i

n

E
m
p

r
i
c
a

(
E
D
F
)

02/02/2013
12
2
2
S
b
W =
Shapiro-Wilk Test
Este estadstico tiende a ser
ms sensible cerca de la
cola izquierda de la
distribucin.
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

c
o
r
r
e
l
a
c
i

n

y

r
e
g
r
e
s
i

n

Con
( ) | |
( ) ( )
2
i
n , 1 I
2
i
n , 1 I
2
1 i n
2
1
2
n
) 1 (
i 1 i n 1 i n
k , 1 I
x SUM
n
1
x SUM S
1 - A Tabla la de factor : a
impar es n si ) 1 n ( k ; par es n si k
x x a SUM b
|
.
|

\
|
=
=
= =
=
= =
+
+ +
=
El estadstico b da, hasta una
cierta constante, la pendiente de
la lnea de regresin.
Los coeficientes a
n-i+1
son
constantes generadas a partir de
los momentos de la distribucin
Normal.
Esta prueba se ha convertido en la
preferida debido a sus excelentes
propiedades de discriminacin
(power).
Es recomendado para casos con
tamaos de muestra limitados
(n s 50).
(1)
Esta frmula es vlida para
distribucin Normal. Para
otras distribuciones, su clculo
es diferente.
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

c
o
r
r
e
l
a
c
i

n

y

r
e
g
r
e
s
i

n

02/02/2013
13
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

c
o
r
r
e
l
a
c
i

n

y

r
e
g
r
e
s
i

n

Ejemplo aplicacin del test Shapiro-Wilk (SW): Distribucin Normal
Dados los siguientes datos ordenados
{.6925, 1.6952, 1.6970, 1.6974, 1.6981,
1.6985, 1.6988, 1.6992, 1.7001, 1.7012,
1.7015, 1.7016, 1.7030, 1.7050, 1.7055,
1.7060, 1.7083, 1.7085, 1.7107}
resultantes de una medicin de 20
dimetros.
Es razonable suponer que los datos
provienen de una distribucin Normal?
Solucin:
Para este caso, H
0
:= x es Normal
4 2
10 86 . 5 b
0242 . 0 b

=
=
( ) ( )
( )
4 2
2
2
i
n , 1 I
2
i
n , 1 I
2
10 2 . 4 S
00042 . 0
90443 . 57 90485 . 57
0307 . 84
20
1
90485 . 57
x SUM
n
1
x SUM S

= =
=
=
=
=
|
.
|

\
|
=
Como n=20 k=10.
0000 . 7012 . 1 7015 . 1 0140 . 11
0001 . 7001 . 1 7016 . 1 0422 . 12
0002 . 6992 . 1 7026 . 1 0711 . 13
0042 . 6988 . 1 7030 . 1 1013 . 14
0009 . 6985 . 1 7050 . 1 1334 . 15
0012 . 6981 . 1 7055 . 1 1686 . 16
0018 . 6974 . 1 7060 . 1 2085 . 17
0029 . 6970 . 1 7083 . 1 2565 . 18
0043 . 6952 . 1 7085 . 1 3211 . 19
0086 . 6925 . 1 7107 . 1 4734 . 20
) x x ( a x x a i 1 n
i i 1 n i 1 n i i 1 n i 1 n
+
+ + + +
( ) | |
i 1 i n 1 i n
k , 1 I
x x a SUM b =
+ +
=
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

c
o
r
r
e
l
a
c
i

n

y

r
e
g
r
e
s
i

n

395 . 1
10 2 . 4
10 86 . 5
S
b
W
4
4
2
2
=

= =

De la tabla A-2 para valores crticos de la


distribucin Normal:
905 . 0 W
20,0.05
=
905 . 0 W W 1.395
20,0.05
= > =
Conclusin:
As, debemos rechazar la hiptesis
nula H
0
al nivel de confianza o=0.05.
Debemos suponer que los datos no
se ajustan a la distribucin Normal.
02/02/2013
14
Shapiro-Wilk Statistic Critical Values
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

c
o
r
r
e
l
a
c
i

n

y

r
e
g
r
e
s
i

n

Shapiro-Wilk Statistic Critical Values
P
r
u
e
b
a
s

b
a
s
a
d
a
s

e
n

c
o
r
r
e
l
a
c
i

n

y

r
e
g
r
e
s
i

n

02/02/2013
15
Power de las pruebas de bondad de ajuste
De estas 1000 simulaciones
realizadas con PASS 11, aplicando
una prueba para ajustar distribucin
Normal a datos generados mediante
un modelo Gamma, se observa que el
estadstico Shapiro-Wilk y el
Anderson-Darling poseen un power
similar para valores de tamaos de
muestra n 100, siendo adems los
que presentan un mejor desempeo.
Elaborado por A. Mayorga
Noviembre 2012
30
Datos truncados o asociados con
pruebas de falla
Si los datos por analizar estn truncados o son censored,
entonces el procedimiento anterior podra no ser el ms
indicado para hallar el modelo distribucional de mejor ajuste.
En estos casos se recomienda utilizar el mtodo basado en el
Maximum Likehood Estimator (MLE) para hallar la
distribucin de mejor ajuste.
El mtodo estndar indicado con
anterioridad utiliza el mtodo LSE
(Least Square Estimates), el cual es
recomendado para muestras
pequeas y datos no truncados
(censored).
Datos Censored: son aquellos cuyas
propiedades medidas no se conocen
con precisin, pero se sabe que estn
por encima o por debajo de algn
lmite de sensibilidad.
Datos Truncados: son aquellos que
debido a lmites de sensibilidad
estn perdidos de la muestra.
Elaborado por A. Mayorga
Noviembre 2012
02/02/2013
16
31
D
a
t
o
s

c
e
n
s
o
r
e
d

o

a
s
o
c
i
a
d
o
s

c
o
n

p
r
u
e
b
a
s

d
e

f
a
l
l
a


El procedimientopor seleccionar depende del tipo de muestra (es
decir, si es uncensored o censored, o si los datos estn
agrupados o no). El censoring ocurre cuando el valor asignado a
una medicin u observacin es conocido slo parcialmente.
MLE, el cual a diferencia del LSE
requiere de un mnimo o de
ninguna suposicin distribucional,
es til en la obtencin de una
medida descriptiva con el fin de
resumir datos observados, pero no
posee ninguna base para la prueba
de hiptesis o construir intervalos
de confianza.
A diferencia del LSE, el cual es
bsicamente una herramienta descrip-
tiva, el mtodo MLE es el preferido en
estadstica en la estimacin de parme-
tros y es una herramienta indispensable
para muchas tcnicas de modelado
estadstico, en particular en el modelado
no lineal con datos no normales.
Existen dos mtodos generales para la estimacin
de prametros: Least-Squares Estimation (LSE) y
Maximum Likelihood Estimation (MLE).
LSE ha sido la seleccin popular para ajuste
distribucional, y est asociada a muchos
conceptos estadsticos, tales como regresin
lineal, suma de errores cuadrticos,
desviacin cuadrtica media, etc.
Elaborado por A. Mayorga
Noviembre 2012
32
Si a estos datos le aplicramos el mtodo basado en el p-value,
no obtendramos ningn ajuste distribucional por lo que no
sera posible continuar con el estudio de capacidad.
Note que aunque no se
pudo asignar un p-value
al modelo lognormal, ste
parece ajustarse bien a
los datos.
Elaborado por A. Mayorga
Noviembre 2012
D
a
t
o
s

c
e
n
s
o
r
e
d

o

a
s
o
c
i
a
d
o
s

c
o
n

p
r
u
e
b
a
s

d
e

f
a
l
l
a


02/02/2013
17
33
Sin embargo, al percatarnos de que estos datos corresponden a una prueba
de explosin de un baln (por lo que son datos de falla) y que son, adems,
datos truncados (aunque la variable es continua), podemos utilizar:
Los datos poseen solo un
lmite inferior (5 psi), por lo
que las distribuciones
esperadas para estos datos
son: Weibull, Lognormal y
Exponencial.
Si el proceso es
robusto, es de
esperar hallar una
densidad de valores
muy baja cerca del
lmite inferior y
muy alta lejos de
este lmite.
Esta opcin
permite
identificar el
modelo de
mejor ajuste
distribucional y
utiliza ambos
mtodos (LSE y
MLE).
Elaborado por A. Mayorga
Noviembre 2012
D
a
t
o
s

c
e
n
s
o
r
e
d

o

a
s
o
c
i
a
d
o
s

c
o
n

p
r
u
e
b
a
s

d
e

f
a
l
l
a


34
Ambas opciones permiten
utilizar tanto el mtodo LSE
como el MLE.
Aunque ambos mtodos (LSE y
MLE) coinciden en el modelo
de mejor ajuste, difieren en
cuanto al valor de los
parmetros distribucionales.


Elaborado por A. Mayorga
Noviembre 2012
D
a
t
o
s

c
e
n
s
o
r
e
d

o

a
s
o
c
i
a
d
o
s

c
o
n

p
r
u
e
b
a
s

d
e

f
a
l
l
a


02/02/2013
18
35
10.00 1.00 0.10 0.01
99. 9
90
50
10
1
High - Threshold
P
e
r
c
e
n
t
20 10 5
99. 9
99
90
50
10
1
0. 1
High - Threshold
P
e
r
c
e
n
t
10.0 1.0 0.1
99. 9
90
50
10
1
High - Threshold
P
e
r
c
e
n
t
2-Parameter Exponential
3.967
3-Parameter Lognormal
1.516
3-Parameter Weibull
1.607
Anderson-Darling (adj)
10.00 1.00 0.10 0.01
99. 9
90
50
10
1
High - Threshold
P
e
r
c
e
n
t
20 10 5
99. 9
99
90
50
10
1
0. 1
High - Threshold
P
e
r
c
e
n
t
10 1
99. 9
90
50
10
1
High - Threshold
P
e
r
c
e
n
t
2-Parameter Exponential
*
3-Parameter Lognormal
0.977
3-Parameter Weibull
0.969
Correlation Coefficient
Probability Plot for High
ML Estimates-Complete Data
2-Parameter Exponential 3-Parameter Lognormal
3-Parameter Weibull
Probability Plot for High
LSXY Estimates-Complete Data
2-Parameter Exponential 3-Parameter Lognormal
3-Parameter Weibull
Elaborado por A. Mayorga
Noviembre 2012
36
10 1
99.9
99
90
50
10
1
0.1
High - Threshold
P
e
r
c
e
n
t
AD* 1.516
Loc 1.89755
Scale 0.317639
Thres 6.33901
Mean 13.3537
StDev 2.28553
Median 13.0086
IQR 2.87974
Failure 60
Censor 0
Table of Statistics
100 10 1
99.9
99
90
50
10
1
0.1
High - Threshold
P
e
r
c
e
n
t
AD* 1.488
Correlation 0.977
Loc 2.03597
Scale 0.279266
Thres 5.39133
Mean 13.3556
StDev 2.26824
Median 13.0510
IQR 2.90269
Failure 60
Censor 0
Table of Statistics
Probability Plot for High
Complete Data - ML Estimates
3-Parameter Lognormal - 95% CI
Probability Plot for High
Complete Data - LSXY Estimates
3-Parameter Lognormal - 95% CI
02/02/2013
19
24 18 12 6
99.9
99
90
50
10
1
0.1
Low
P
e
r
c
e
n
t
100.0 10.0 1.0 0.1
99.9
90
50
10
1
Low - Threshold
P
e
r
c
e
n
t
10 1
99.9
99
90
50
10
1
0.1
Low - Threshold
P
e
r
c
e
n
t
10 1
99.9
90
50
10
1
Low - Threshold
P
e
r
c
e
n
t
Normal
0.945
2-Parameter Exponential
*
3-Parameter Lognormal
0.988
3-Parameter Weibull
0.982
Correlation Coefficient
Probability Plot for Low
LSXY Estimates-Complete Data
Normal 2-Parameter Exponential
3-Parameter Lognormal 3-Parameter Weibull
37
Al aplicar el mtodo basado en el LSE a los datos de LOW,
obtenemos que los datos se ajustan bien al modelo distribucional 3-
parameter lognormal.
Seleccionamos la
distribucin con el
mayor coeficiente
de correlacin.
Elaborado por A. Mayorga
Noviembre 2012
D
a
t
o
s

c
e
n
s
o
r
e
d

o

a
s
o
c
i
a
d
o
s

c
o
n

p
r
u
e
b
a
s

d
e

f
a
l
l
a


24 18 12 6
99.9
99
90
50
10
1
0.1
Low
P
e
r
c
e
n
t
100.0 10.0 1.0 0.1
99.9
90
50
10
1
Low - Threshold
P
e
r
c
e
n
t
10 1
99.9
99
90
50
10
1
0.1
Low - Threshold
P
e
r
c
e
n
t
10.0 1.0 0.1
99.9
90
50
10
1
Low - Threshold
P
e
r
c
e
n
t
Normal
1.761
2-Parameter Exponential
2.906
3-Parameter Lognormal
0.855
3-Parameter Weibull
0.937
Anderson-Darling (adj)
Probability Plot for Low
ML Estimates-Complete Data
Normal 2-Parameter Exponential
3-Parameter Lognormal 3-Parameter Weibull
38
Al aplicar el mtodo basado en el MLE, obtenemos que los datos se
ajustan bien al modelo distribucional 3-parameter lognormal.
Seleccionamos la
distribucin con el
menor coeficiente
AD (adj).
Elaborado por A. Mayorga
Noviembre 2012
D
a
t
o
s

c
e
n
s
o
r
e
d

o

a
s
o
c
i
a
d
o
s

c
o
n

p
r
u
e
b
a
s

d
e

f
a
l
l
a


02/02/2013
20
39
Una observacin acerca del modelado distribucional
Las grficas de
control no hacen
ninguna suposicin
acerca de la forma
funcional de tal
modelo
probabilstico.
Un proceso no se puede decir que est
caracterizado por un modelo
distribucional a menos que despliegue
un grado razonable de estabilidad
(predictibilidad).
Para parafrasear a Shewhart, el propsito
de una grfica de comportamiento de
proceso (grfica de control) es
determinar si existe un modelo
probabilstico que describa el proceso.
Si un proceso es estable entonces existe en
principio un modelo distribucional que lo
describe.
Si Ud. no ha calificado los datos al ponerlos en una
grfica de control y hallar que despliegan un grado
razonable de homogeneidad, entonces cualquier intento
de ajustarlos a algn modelo es prematuro.
Nuestra experiencia muestra que despus de
que las causas asignables de Tipo I se han
detectado y eliminado, la distribucin observada
es, generalmente, alisada y unimodal.
Shewhart (1931)
Elaborado por A. Mayorga
Noviembre 2012
Elaborado por A. Mayorga
Noviembre 2012
REFERENCES
Balakrishnan, N. A Primer on Statistical Distributions. 2004. John Wiley & Sons, Inc.
Thas, Olivier. Comparing Distributions. 2010. Springer Science-Business Media.
Duistermaat & Kolk. Distributions: Theory and Applications. 2010. Birkhuser.
Karian & Dudewicz. Handbook of Fitting Statistical Distributions with R. 2011. CRC Press.
Krishnamoorthy, K. Handbook of Statistical Distributions with Applications. 2006. Chapman &
Hall/CRC
Shapiro, S. How to Test Normality and Other Distributional Assumptions. 1990. ASQC Press.
Ross, S. Introduction to Probability Models. 6th. Edition. 1997. Academic Press Limited.
Forbes, K. Statistical Distributions. 4th edition. 2011. John Wiley & Sons, Inc.
Anderson & Darling. A Test of Goodness of Fit. Journal of the American Statistical Association,
Vol. 49, No. 268. (Dec., 1954), pp. 765-769.
Shapiro & Wilk. An Analysis of Variance Test for Normality (Complete Samples). 1965.
Biometrika, Vol. 52, No. 3/4. (Dec., 1965), pp. 591-611.
Dietrich & Schulze. Statistical Procedures for Machine and Process Qualification. 1999. ASQ
Press.

También podría gustarte