Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Pruebas de Bondad de Ajuste - Formato CETAM PUCP
Pruebas de Bondad de Ajuste - Formato CETAM PUCP
BONDAD DE AJUSTE
Elaborado por:
Manuel García-Naranjo B.
INTRODUCCIÓN
En la determinación de valores extremos (caudales máximos o
mínimos, niveles máximos o mínimos, etc.) necesarios para el
análisis y solución de muchos problemas relacionados con la
ingeniería hidráulica, resulta común emplear las distribuciones
probabílisticas más usuales para el estudio de problemas
hidrológicos. Así, a partir de un registro histórico de valores
extremos, se infiere aquellos valores máximos o mínimos
asociados a un cierto período de retorno de diseño.
INTRODUCCIÓN
Es relativamente común apreciar estudios en los cuales, a partir de
una data histórica de valores extremos, se haya hecho uso de
distribuciones tales como: Gumbel, Normal o Log Pearson tipo III,
para estimar los valores extremos asociados a un periodo de
retorno seleccionado. En menor medida se observará el empleo
de distribuciones tales como: log normal de 2 parámetros, log
normal de 3 parámetros o la distribución gamma de 2 ó de 3
parámetros.
INTRODUCCIÓN
En este sentido cabría preguntarse: ¿qué ha llevado al
especialista a seleccionar una determinada distribución
probabilística para el análisis efectuado? ¿se ha verificado que la
distribución escogida sea la que efectivamente mejor se ajusta o
representa a la serie histórica de datos? ¿cuál de las
distribuciones disponibles debió haberse empleado en verdad en la
estimación requerida de valores extremos?
Estas preguntas nos conducen a la necesidad de revisar los temas
relacionados con las pruebas de bondad de ajuste.
DEFINICIONES
Las pruebas de bondad de ajuste tienen por objetivo determinar si
los datos disponibles se ajustan a una determinada distribución.
Se entiende por bondad de ajuste a la asimilación de los datos
observados de una variable a una función matemática previamente
establecida y reconocida. A través de ésta es posible entonces
predecir el comportamiento de la variable en estudio (Pizarro,
1986)
DEFINICIONES
Entre las pruebas de bondad de ajuste más conocidas, cabe
mencionar las siguientes:
• Prueba de Chi Cuadrado
• Prueba de Kolmogorov Smirnov
• Prueba de Anderson Darling
PRUEBA DE CHI CUADRADO
La prueba de Chi Cuadrado se basa en la comparación entre la
frecuencia observada en un intervalo de clase y la frecuencia
esperada en dicho intervalo, calculada de acuerdo con la
distribución teórica considerada. Es decir, se trata de determinar si
las frecuencias observadas en la muestra están lo suficientemente
cerca de las frecuencias esperadas bajo la hipótesis nula
formulada.
Para aplicar esta prueba se debe agrupar las observaciones de la
muestra en intervalos de clase, preferiblemente del mismo
tamaño.
PRUEBA DE CHI CUADRADO
Valor del estadístico Chi-cuadrado calculado
El estadístico de prueba, χ2C queda definido por la expresión:
donde:
Oi: frecuencia observada en el intervalo i, de acuerdo a la muestra
considerada
Ei: frecuencia esperada en el intervalo i, de acuerdo a la
distribución seleccionada
k: número de intervalos de clase en que se han agrupado las
observaciones
PRUEBA DE CHI CUADRADO
Valor tabular de Chi-cuadrado
El valor tabular del estadístico Chi-cuadrado, χ2t , se determina a
partir del cuadro siguiente, en función de los grados de libertad y
del nivel de significación elegido, esto es, la probabilidad de
exceder el valor extremo.
PRUEBA DE CHI CUADRADO
PRUEBA DE CHI CUADRADO
Los grados de libertad se determinan con la expresión:
g.l. = k – 1 – p grados de libertad, donde k es el número de
intervalos de clase y p es el número de parámetros que definen
completamente a la distribución seleccionada.
El nivel de significación, α, usualmente es 5% o 1%
PRUEBA DE CHI CUADRADO
Criterio de Decisión
El criterio de decisión se fundamenta en la comparación del valor
calculado de Chi-cuadrado con el valor tabular encontrado, esto es:
Si el estadístico Chi-cuadrado calculado es menor o igual que el
valor tabular, es decir: χ2C ≤ χ2t
entonces, se acepta la hipótesis nula, que establece que los
valores observados se ajustan a la distribución considerada, al
nivel de significación seleccionado (usualmente α = 5% o 1%)
PRUEBA DE CHI CUADRADO
Si el estadístico Chi-cuadrado calculado es mayor que el valor
tabular, es decir: χ2C > χ2t
entonces, se rechaza la hipótesis nula y se acepta la hipótesis
alternativa, que establece que los valores observados no se
ajustan a la distribución considerada, al nivel de significación
seleccionado (usualmente α = 5% o 1%); siendo necesario probar
con otra distribución teórica.
PRUEBA DE CHI CUADRADO
Comentarios
Algunas consideraciones que hay que tener en cuenta con
respecto a la aplicación de esta prueba son las siguientes:
• El análisis debe efectuarse con datos agrupados en intervalos
de clase.
• El número de intervalos de clase debe ser por lo menos 5. Se
recomienda también que, para facilidad de los cálculos, el
número de intervalos de clase no sea mayor a 20.
• El número de observaciones esperado (frecuencia observada)
en cada intervalo de clase debe ser por lo menos 5. Si esta
condición no se cumple, es necesario agrupar en uno los
resultados de varios intervalos de clase.
PRUEBA DE CHI CUADRADO
• Al efectuar los cálculos de las frecuencias esperadas, debe
considerarse los intervalos extremos como casos especiales.
Así:
En el primer intervalo, que incluye aquellos valores observados
entre x0 y x1, la probabilidad a considerar debe ser la
correspondiente a que la variable aleatoria sea menor o igual
que x1 (no solo comprendida entre x0 y x1)
En el último intervalo, que incluye aquellos valores observados
entre xk-1 y xk, la probabilidad a considerar debe ser la
correspondiente a que la variable aleatoria sea mayor que xk-1
(no solo comprendida entre xk-1 y xk).
APLICACIÓN DE LA PRUEBA DE CHI CUADRADO
Operativamente, para aplicar en un caso práctico la prueba de chi-
cuadrado debe seguirse el siguiente procedimiento:
• Determinar el Número de Intervalos de Clase
El número de intervalos de clase se calcula con la fórmula
propuesta por Yevjevich:
NC = 1 + 1.33 ln(N)
donde:
NC: número de intervalos de clase
N: número de datos
APLICACIÓN DE LA PRUEBA DE CHI CUADRADO
• Calcular la Amplitud de cada Intervalo
La amplitud de cada intervalo se determina con la ecuación:
Tabla de valores de Dα
en función del nivel de
significancia y del tamaño
de la muestra.
PRUEBA DE KOLMOGOROV SMIRNOV
El procedimiento a seguir en la aplicación práctica de la prueba de
Kolmogorov-Smirnov es el siguiente:
• Determinar la frecuencia observada acumulada y la frecuencia
téorica acumulada, Po(x) y P(x).
• En cada caso, calcular: Dn = max | P(x) – Po(x) |
• Así, Dn es la máxima diferencia entre la función de distribución
acumulada de la muestra y la función de distribución acumulada
teórica escogida
• Fijar un nivel de probabilidad o de significancia α. Los valores
de 0.05 y 0.01 son los más usuales.
PRUEBA DE KOLMOGOROV SMIRNOV
• Determinar el valor crítico Dα en la tabla correspondiente.
• Aplica el criterio de decisión:
Si el valor calculado Dn es menor que el Dα, se acepta la
hipótesis nula (Ho) que establece que la serie de datos se ajusta
a la distribución teórica escogida.
Si el valor calculado Dn es mayor que el Dα, se rechaza la
hipótesis nula (Ho) y se acepta la hipótesis alternativa (Ha) que
establece que la serie de datos no se ajusta a la distribución
teórica escogida.
EJEMPLO PRUEBA DE KOLMOGOROV SMIRNOV
EJEMPLO PRUEBA DE KOLMOGOROV SMIRNOV
PRUEBA DE ANDERSON-DARLING
Esta prueba no paramétrica es una modificación del test de
Kolmogorov- Smirnov, donde se le da más peso a las colas de la
distribución que la prueba de K-S.
Fórmula: A2= − N− S
El estadístico para la prueba de Anderson-Darling es:
PRUEBA DE ANDERSON-DARLING
donde:
n - es el número de datos
F(x) - es la función e distribución de probabilidad teórica
Fn(x) - es la función de distribución empírica
Para definir la regla de rechazo para esta prueba es necesario
obtener el estadístico ajustado para luego compararlo con los
valores críticos de la tabla de Anderson-Darling.
La tabla siguiente muestra los valores críticos para distintas
distribuciones con parámetros conocidos.
PRUEBA DE ANDERSON-DARLING
PRUEBA DE ANDERSON-DARLING
Una vez obtenido el estadístico ajustado, la regla de rechazo se
realiza de manera análoga a la prueba de Kolmogorov-Smirnov.
Si An2 es mayor o igual que ao, se acepta la hipótesis nula; siendo ao
el valor asociado al estadístico de prueba An2
BREVES CONCLUSIONES
¿En que casos es recomendable cada estadístico?
• Chi-Cuadrado: es recomendable para distribuciones discretas o
continuas cuando existe gran cantidad de datos. Se
recomienda trabajar con datos agrupados.
• Kolmogorov-Smirnov (K-S): es recomendable para
distribuciones continuas y muestras de cualquier tamaño. No
requiere hacer uso de datos agrupados.
• Anderson-Darling: es recomendable para distribuciones con
colas pronunciadas. No requiere hacer uso de datos
agrupados.