Está en la página 1de 7

UNIDAD 4 PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMETRICAS

4.1 Prueba de bondad

La prueba de bondad de ajuste se aplica en diseños de investigación en los que se estudia un único grupo.

La prueba compara la distribución de frecuencias observada (Fo) de una variable usualmente cualitativa, pro
que también puede ser cuantitativa, con la distribución de frecuencias de la misma variable medida en un
grupo de referencia.

El procedimiento de la prueba implica el cálculo de una distribución esperada (Fe) en el grupo estudiado,
usando como punto de partida a la distribución de la variable en el grupo de referencia.

El propósito de la prueba es averiguar si existen diferencias estadísticamente significativas entre la


distribución observada (Fo) y la distribución esperada (Fe).

En la prueba de bondad se planean las siguientes hipótesis estadísticas:

Hipótesis estadística nula: Ho: Fo=Fe

Hipótesis estadística alterna: Ha: Fo≠Fe

El procedimiento e la prueba incluyen el cálculo de la medida de resumen llamada Chi cuadrada. El rechazo
del Ho ocurre cuando el valor calculado con los datos resulta mayor que el valor crítico de dicha medida
contenido en una tabla llamada Valores Críticos de Chi cuadrada.

En el caso que el valor de Chi cuadrada sea igual o menos al de Chi cuadrada crítica se dice que no se
rechaza Ho y, por tanto, se concluye que la Fo es semejante a la Fe. En otras palabras, se dice que ambas
distribuciones se ajustan bien: de ahí el nombre de prueba: Bondad de ajuste.

Ejemplo

Se ha tomado una muestra aleatoria de 40 baterías y se ha registrado su duración en años. Estos


resultados se los ha agrupado en 7 clases en el siguiente cuadro

i clase (duración) frecuencia observada (oi)

1 1.45 – 1.95 2

2 1.95 – 2.45 1

3 2.45 – 2.95 4

4 2.95 – 3.45 15

5 3.45 – 3.95 10

6 3.95 – 4.45 5
7 4.45 – 4.95 3

Verificar con 5% de significancia que la duración en años de las baterías producidas por este fabricante
tiene duración distribuida normalmente con media 3.5 y desviación estándar 0.7

Solución

Sea X: duración en años (variable aleatoria contínua)

1) Ho: X ~ N(3.5,0.7) (distribución normal, µ=3.5, σ=0.7)

2) Ha: no H0

3) α = 0.05
Cálculo de la probabilidad correspondiente a cada intervalo

p1 = P(X≤1.95) = P(Z≤(1.95 – 3.5)/0.7) = 0.0136

p2 = P(1.95≤X≤2.45) = P((1.95 – 3.5)/0.7 ≤Z≤ (2.45 – 3.5)/0.7) = 0.0532

... (etc)

Cálculo de las frecuencias esperadas

e1 = p1 n = 0.0136 (40) ≈ 0.5

e2 = p2 n = 0.0532 (40) ≈ 2.1

... (etc)
Ahora se puede definir la región de rechazo de Ho.

Observemos que en este ejemplo la media y la desviación estándar de la distribución normal no se


estimaron, sino que están propuestas, de donde r = 0

5) Cálculo del estadístico de prueba

6) Decisión

Como 3.05 no es mayor a 7.815, se dice que no hay evidencia suficiente para rechazar el modelo propuesto
para la población.

4.1.1 Análisis de Ji cuadrada

En realidad la distribución ji-cuadrada es la distribución muestral de s2. O sea que si se extraen todas las
muestras posibles de una población normal y a cada muestra se le calcula su varianza, se obtendrá la
distribución muestral de varianzas.

Para estimar la varianza poblacional o la desviación estándar, se necesita conocer el estadístico X2. Si se

elige una muestra de tamaño n de una población normal con varianza , el estadístico: Tiene
una distribución muestral que es una distribución ji-cuadrada con gl=n-1 grados de libertad y se denota

X2 (X es la minúscula de la letra griega ji). El estadístico ji-cuadrada esta dado por: . donde n
es el tamaño de la muestra, s2 la varianza muestral y la varianza de la población de donde se extrajo la

muestra. El estadístico ji-cuadrada también se puede dar con la siguiente expresión:

Ejemplo:

Suponga que los tiempos requeridos por un cierto autobús para alcanzar un de sus destinos en una ciudad
grande forman una distribución normal con una desviación estándar =1 minuto. Si se elige al azar una
muestra de 17 tiempos, encuentre la probabilidad de que la varianza muestral sea mayor que 2.

Solución:

Primero se encontrará el valor de ji-cuadrada correspondiente a s2=2 como sigue:


El valor de 32 se busca adentro de la tabla en el renglón de 16 grados
de libertad y se encuentra que a este valor le corresponde un área a la derecha de 0.01. En consecuencia,
el valor de la probabilidad es P(s2>2)

4.1.2 pruebas de independencia

Cuando cada individuo de la población a estudio se puede clasificar según dos criterios A y B, admitiendo el
primero a posibilidades diferentes y b el segundo, la representación de las frecuencias observadas en forma
de una matriz a x b recibe el nombre de Tabla de contingencia. Los datos se disponen de la forma

Siendo nij el número de individuos que presentan simultáneamente la i-ésima modalidad del carácter A y la j-
ésima del B.

La hipótesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma independiente en
los individuos de la población de la cual se extrae la muestra; siendo la alternativa la dependencia
estocástica entre ambos caracteres. La realización de esta prueba requiere el cálculo del estadístico

Dónde: Y

Son las frecuencias absolutas marginales y el tamaño muestral total.

El estadístico L se distribuye como una con (a - 1)(b - 1) grados de libertad. El contraste se realiza con un
nivel de significación del 5%.

Ejemplo:

Para estudiar la dependencia entre la práctica de algún deporte y la depresión, se seleccionó una muestra
aleatoria simple de 100 jóvenes, con los siguientes resultados:

Sin depresión Con depresión

Deportista 38 9 47

No deportista 31 22 53
69 31 100

L = (38 – 32,43)2/32,43 + (31 – 36,57)2/36,57 + (9 – 14,57)2/14,57 + (22 – 16,43)2/16,43

= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227

El valor que alcanza el estadístico L es 5,8227. Buscando en la tabla teórica de Chi Cuadrado para 1 grado
de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la hipótesis de independencia de
caracteres con un nivel de significación del 5%, admitiendo por tanto que la práctica deportiva disminuye el
riesgo de depresión.

4.1.3 Prueba de bondad del ajuste

Estas pruebas permiten verificar que la población de la cual proviene una muestra tiene una distribución
especificada o supuesta.

Sea X: variable aleatoria poblacional

f0(x) la distribución (o densidad) de probabilidad especificada o supuesta para X

 Se desea probar la hipótesis: Ho: f(x) = f0(x)


 En contraste con la hipótesis alterna: Ha: f(x) no= f0(x) (negación de Ho)

Ejemplo:

La siguiente tabla presenta información de cantidades sobre el número de plantas Larrea divaricata

halladas en cada uno de los 48 cuadrantes de nuestro, como se publica en el el artículo “Some Sampling

Characteristics of Plants and Arthropods of the Arizona Desert” (Ecology,1962: 567-571)

i Nro. De plantas frecuencia observada (oi)

1 0 9

2 1 9

3 2 10

4 3 14

5 4 2

6 5 2
7 6 2

¿Podrían estos datos ajustarse a una distribución de Poissón? Utilice un nivel 0,05 de significancia.

Solución

El valor de λ en este caso debe estimarse

1) Ho: X ~ Poisson(2,10) (distribución de Poisson con λ = 2,10 )

2) Ha: no H0

3) α = 0.05

Es necesario que se cumpla la condición ∀i, ei ≥ 5 por lo que se deben agrupar clases adyacentes.

Como resultado se tienen cinco clases k=5 Ahora se puede definir la región de rechazo de Ho

Observemos que en este ejemplo se estimó el parámetro de la distribución, de donde r = 1


5) Cálculo del estadístico de prueba

6) Decisión

Como 6,31 no es mayor a 7.815, se dice que no hay evidencia suficiente para rechazar el modelo propuesto
para la población, de modo que al nivel de 5%, la distribución de Poisson da un ajuste razonable a los datos.

4.1.4 Tablas de contingencia

La tabla de contingencia es una tabla de doble entrada, donde en cada casilla figurará el número de casos o
individuos que poseen un nivel de uno de los factores o características analizadas y otro nivel del otro factor
analizado

Para analizar la relación de dependencia o independencia entre dos variables cualitativas nominales o
factores, es necesario estudiar su distribución conjunta o tabla de contingencia. La tabla de contingencia se
define por el número de atributos o variables que se analizan conjuntamente y el número de modalidades o
niveles de los mismos.

Las tablas de contingencia tienen dos objetivos fundamentales:

1) Organizar la información contenida en un experimento cuando ésta es de carácter bidimensional, es


decir, cuando está referida a dos factores (variables cualitativas).
2) A partir de la tabla de contingencia se puede además analizar si existe alguna relación de dependencia
o independencia entre los niveles de las variables cualitativas objeto de estudio. El hecho de que dos
variables sean independientes significa que los valores de una de ellas no están influidos por la
modalidad o nivel que adopte la otra.
Ejemplo:

También podría gustarte