Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ajuste Datos
Ajuste Datos
ESQUEMA DE CONTENIDOS
______________________________
Tests Chi-Cuadrado de
bondad de ajuste (Minitab)
INTRODUCCIN
___________________
En infinidad de ocasiones nos encontraremos con una serie de datos u observaciones que hemos
obtenido al analizar una variable aleatoria de patrn desconocido. Esto ocurrir, por ejemplo, al
registrar los tiempos transcurridos entre llamadas sucesivas a un call-center, al registrar los
tiempos de fallo de un determinado dispositivo, al contabilizar el nmero de pginas web distintas
que un internauta visita hasta llegar a una que le proporciona la informacin deseada, etc.
En tales casos, resulta fundamental intentar identificar un patrn conocido (distribucin de
probabilidad) que nos ayude a explicar el comportamiento de la variable aleatoria. Es lo que se
conoce como ajuste de los datos mediante una distribucin terica conocida. Si se logra ajustar
los datos por alguna de estas distribuciones, podremos usar las caractersticas de sta para
realizar anlisis ms profundos (inferencia) sobre la poblacin de la cual proviene la muestra o
conjunto de observaciones, o incluso para simular algn fenmeno cuyo comportamiento venga
descrito por una o varias variables aleatorias (como los mencionados anteriormente).
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
OBJETIVOS
________________________
Aprender, con ayuda de Minitab, a ajustar observaciones procedentes de una v.a. continua
mediante alguna distribucin terica conocida..
Ser capaz de analizar, con ayuda de Minitab, la posible normalidad de un conjunto de datos.
CONOCIMIENTOS PREVIOS
___________________________________
Este math-block supone que el lector est familiarizado con el software estadstico Minitab, as
como con conceptos bsicos de estadstica descriptiva e inferencial (distribuciones de
probabilidad, contraste de hiptesis, etc.).
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Grficos de probabilidad
Al representar grficamente las funciones de distribucin (f.d.) de las diferentes distribuciones
tericas, se obtienen curvas muy similares, la mayora de las cuales resultan difciles de ser
identificadas a simple vista. Es por ello que se utilizan los grficos de probabilidad, los
cuales hacen uso de escalas especiales en los ejes, de manera que al representar la f.d. sta
tenga forma lineal.
El primer paso ser pues encontrar la transformacin adecuada para T y F(T) de modo que al
representar T vs. F(T) se obtenga una funcin lineal.
Ejemplo (linealizacin de una Weibull): La f.d. asociada a una distribucin Weibull de dos
parmetros viene dada por la expresin:
F(t) = 1 exp{-(t/)}
, > 0
con
Esta funcin puede ser linealizada (i.e., puesta de la forma: y = a + bx) como sigue:
F(t) = 1 exp{-(t/)} ln(1-F(t)) = ln(exp{-(t/)}) ln(1-F(t)) = -(t/)
-1
y = ln(ln(1-F(t)) )
x = ln(t)
F(t)
0,00
0,00
0,01
0,03
0,06
0,12
0,21
0,34
0,48
0,63
0,77
0,87
0,94
0,98
0,99
1,00
10
4
x = ln(t)
0,00
0,69
1,10
1,39
1,61
1,79
1,95
2,08
2,20
2,30
2,40
2,48
2,56
2,64
2,71
2,77
WEIBULL
-1
y = ln(ln(1-F(t)) )
-9,2
-6,4
-4,8
-3,7
-2,8
-2,0
-1,4
-0,9
-0,4
0,0
0,4
0,7
1,0
1,3
1,6
1,9
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
F(t)
0,80
0,60
0,40
0,20
0,00
0
10
15
-1,0
-3,0
-5,0
-7,0
-9,0
0,00
0,50
1,00 x 1,50
2,00
2,50
3,00
Una vez conocidas las transformaciones que permiten linealizar la f.d. asociada a una
distribucin, es posible construir una plantilla especial (con los ejes graduados de forma
adecuada) sobre la cual representar una nube de puntos que contenga cada uno de los tiempos
de fallo observados (eje x) junto con el valor (estimado) de la f.d. asociado a dicha observacin
(eje y).
Para cada punto (xj,yj), el valor xj vendr dado por la j-sima observacin tj (instante en que se ha
producido el fallo j-simo). Ms complicado ser hallar el valor de la coordenada yj, la cual
representar el valor estimado de F(tj). Es usual estimar dicho valor mediante los llamados
rangos medianos, los cuales se pueden calcular, en el caso de la distribucin Weibull con
observaciones completas (sin censura), mediante la ecuacin que se muestra a continuacin.
F(tj) rango mediano j-simo = ( 1 + F(0,5; m,n) (n j + 1) / j )
-1
donde:
F(0,5; m,n) es la mediana de una F-Snedecor con m = 2(n j + 1) y n = 2j grados de
libertad, j es el orden del fallo, y n es el tamao muestral.
Como se ver en el apartado siguiente, los programas estadsticos actuales (como Minitab) son
capaces de realizar los clculos anteriores, automatizando as el proceso de construccin de
estos grficos de probabilidad.
Cuando se tengan ya representados todos los puntos (x,y) asociados a las observaciones, se
deber hallar la recta de regresin asociada, la cual corresponder a la f.d. de la distribucin
elegida cuyos parmetros mejor se ajusten a las observaciones. Para ver si las observaciones
pueden aproximarse bien por dicha distribucin, habr que analizar (grficamente o mediante el
estadstico Anderson-Darling) si los puntos representados se encuentran suficientemente
prximos a la recta, prestando especial atencin a los valores de los extremos.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Como se aprecia en las grficas anteriores, en esta primera aproximacin comienza a quedar
claro que, de las cuatro distribuciones usadas (normal, log-normal, exponencial y Weibull), las
dos que mejor se ajustan a las observaciones son la exponencial y la Weibull los puntos se
sitan muy cerca de la lnea y el comportamiento de los mismos no sigue un patrn curvilneo
como en el caso de la normal y de la log-normal. Adems de las grficas, el output anterior
tambin nos proporciona el estadstico de Anderson-Darling ajustado, el cual es un reflejo
de cun lejos se encuentran los puntos respecto de la recta. Por tanto, cuanto menor sea el
valor de dicho estadstico, tanto mejor ser la bondad del ajuste. De los valores de dicho
estadstico, se desprende nuevamente que la Weibull (AD = 0,600) y la exponencial (AD =
0,608) proporcionan un mejor ajuste a las observaciones.
Ahora podemos usar la opcin Stat > Reliability/Survival > Parametric
Distribution Analysis... para afinar algo ms en nuestra eleccin. Como se observa
en la siguiente imagen, es posible optar entre un amplio ramillete de distribuciones
candidatas. En nuestro caso, optaremos por una Weibull y, posteriormente, repetiremos el
proceso con una exponencial:
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Distribution Analysis: C1
Variable:
C1
Censoring Information
Uncensored value
Count
50
Standard
Error
0,1124
0,08382
Estimate
1,0035
0,56802
95,0% Normal CI
Lower
Upper
0,8057
1,2499
0,42536
0,75853
Log-Likelihood = -21,651
Goodness-of-Fit
Anderson-Darling (adjusted) = 0,5999
Distribution Analysis: C1
Variable:
C1
Censoring Information
Uncensored value
Count
50
Standard
Error
Estimate
1,00000
0,56724
0,08022
95,0% Normal CI
Lower
Upper
0,42992
0,74842
Log-Likelihood = -21,652
Goodness-of-Fit
Anderson-Darling (adjusted) = 0,6076
Como se puede apreciar por los outputs anteriores, y dada la gran similitud entre ambos
estadsticos AD (0,599 para el ajuste por la Weibull y 0,6076 para el ajuste por la
exponencial), las observaciones se podran ajustar bastante bien tanto por una Weibull con
parmetros forma = 1,0035 y escala = 0,56802 como por una exponencial de media =
0,56724. Esto no es de extraar, ya que la exponencial no es ms que una Weibull con
parmetro de forma = 1 y parmetro de escala igual a la media.
Llegados a este punto, es importante percatarse de la precisin con que hemos sido capaces
de ajustar los datos: las observaciones procedan de una exponencial con media 0,5. Pues
bien, suponiendo desconocida esta informacin y partiendo de tan slo 50 observaciones,
hemos logrado casi adivinar el verdadero modelo subyacente a los datos (lgicamente, es de
esperar que si dispusisemos de ms observaciones, nuestro ajuste podra ser an mejor).
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Supongamos que tenemos un nmero k de clases en las cuales se han ido registrado un total
de n observaciones (n ser, pues, el tamao muestral). Denotaremos las frecuencias
observadas en cada clase por O1, O2, ..., O k . Se cumplir:
O1 + O2 + ... + O k = n
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
Lo que queremos es comparar las frecuencias observadas con las frecuencias esperadas
(tericas), a las que denotaremos por E1, E2, ..., E k . Se verificar que:
E1 + E2 + ... + E k = n
CLASE 1
CLASE 2
...
CLASE K
Total
FRECUENCIA OBSERVADA
O1
O2
...
OK
N
FRECUENCIA ESPERADA
E1
E2
...
EK
N
i =1
(Oi E i )2
Ei
Observar que este valor ser la suma de k nmeros no negativos. El numerador de cada
trmino es la diferencia entre la frecuencia observada y la frecuencia esperada. Por tanto,
cuanto ms cerca estn entre s ambos valores ms pequeo ser el numerador, y viceversa.
El denominador permite relativizar el tamao del numerador.
Las ideas anteriores sugieren que, cuanto menor sean el valor del estadstico 2 , ms
coherentes sern las observaciones obtenidas con los valores esperados. Por el contrario,
valores grandes de este estadstico indicarn falta de concordancia entre las observaciones y
lo esperado. En este tipo de contraste se suele rechazar la hiptesis nula (los valores
observados son coherentes con los esperados) cuando el estadstico es mayor que un
determinado valor crtico.
Notas:
1. El valor del estadstico 2 se podr aproximar por una distribucin Chi-cuadrado cuando
el tamao muestral n sea grande (normalmente es suficiente con n > 30), y todas las
frecuencias esperadas sean iguales o mayores a 5 (en ocasiones deberemos agrupar
varias categoras a fin de que se cumpla este requisito).
2. Se supone que las observaciones son obtenidas mediante muestreo aleatorio a partir de
una poblacin que previamente ha sido dividida en categoras.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
10
(Oi E i )2
i =1
Ei
i = 1, ..., k
Frecuencia
Observada
100
524
1.080
1.126
655
105
3.590
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
11
Los valores observados y los esperados no parecen coincidir. Observar que, incluso en el
caso de que nuestra hiptesis nula fuese cierta, ambos valores no seran exactamente
iguales -ya que siempre habr cierto margen de variacin. La dificultad est en determinar si
las diferencias entre ambos valores son o no significativas. Calculemos el estadstico 2 :
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
12
Column Sum
Sum of CHI-CUADRADO = 21,568
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
13
P( X <= x)
0,9994
As pues, p-valor = 1 0,9994 = 0,0006 < 0,05. Por tanto, podemos considerar que el pvalor es significativo (al menos para = 0,05), motivo por el cual rechazaremos la hiptesis
nula, i.e.: las monedas no parecen ser simtricas (i.e.: no siguen una distribucin binomial
con parmetro p = 0,5).
Profundicemos un poco ms en nuestro anlisis: observar que, en la columna CHICUADRADO, aparece un valor (enorme) de 15,7732 asociado a la obtencin de 4 caras:
Este valor es un reflejo de que hay una discrepancia anormal entre los valores
observados y los esperados para esta categora. Es posible que haya habido un error en
los registros, contabilizndose algunos resultados de 4 cruces como resultados de 4
caras.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
14
Establecida la semilla, podemos generar los nmeros aleatorios usando la opcin Calc >
Random Data > Binomial... :
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
15
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
16
Como se aprecia en el grfico anterior, los puntos se acercan bastante a la recta lo cual es
un claro indicio de que siguen una distribucin aproximadamente normal. Adems, el p-valor
asociado al contraste de Anderson-Darling es p-value = 0,940 (mucho mayor que 0,05), por lo
que estamos muy lejos de rechazar la hiptesis nula de que los datos se distribuyen de forma
normal.
Este experimento nos ha permitido, adems, comprobar empricamente un resultado terico
de sumo inters: cuando una variable aleatoria se distribuye segn una binomial con
parmetros n y p, bajo determinadas condiciones (n suficientemente grande y p cercano a
0,5) es posible aproximar el comportamiento de dicha variable mediante una distribucin
normal de media np y varianza np (1-p).
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
17
BIBLIOGRAFA
______________________________________________
[1]
[2]
Matloff, N.S. (1997): Probability Modeling and Computer Simulation. PWS Publishing Co.
[3]
[4]
Thompson, J.R. (2000): Simulation: a modelers approach. John Wiley & Sons. ISBN:
0471251844.
[5]
Rubinstein, R. (1998): Modern simulation and modeling John Wiley & Sons. ISBN:
0471170771.
ENLACES
___________________________________
http://www.itl.nist.gov/div898/handbook/index.htm
Libro on-line Engineering Statistics Handbook (ver apartado goodness-of-fit)
http://www.palisade.com/html/bestfit.html
Pgina web de @Risk.xla dedicada al ajuste de datos
http://isgwww.cs.uni-magdeburg.de/~graham/its_01/lectures/06-Inputmodeling-4.pdf
PDF con diapositivas en las que se explica cmo ajustar observaciones mediante una
distribucin de probabilidad conocida.
http://www.cse.msu.edu/~cse808/note/lecture9.ppt
PowerPoint en el que se explica cmo llevar a cabo el ajuste de datos.
http://www.dal.ca/~jblake/ieng3432/Slides/6.1%20Input%20Analysis.ppt
PowerPoint que explica la importancia de las distribuciones de probabilidad en la simulacin.
http://www.informs-cs.org/wsc00papers/038.PDF
Artculo de Averill M. Law en el que se comentan aspectos interesantes sobre el ajuste de
datos mediante distribuciones tericas dentro del mbito de la simulacin.
Proyecto e-Math
Financiado por la Secretara de Estado de Educacin y Universidades (MECD)
18