Está en la página 1de 7

UNIDAD 4 PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMETRICAS

4.1 Prueba de bondad La prueba de bondad de ajuste se aplica en diseos de investigacin en los que se estudia un nico grupo. La prueba compara la distribucin de frecuencias observada (Fo) de una variable usualmente cualitativa, pro que tambin puede ser cuantitativa, con la distribucin de frecuencias de la misma variable medida en un grupo de referencia. El procedimiento de la prueba implica el clculo de una distribucin esperada (Fe) en el grupo estudiado, usando como punto de partida a la distribucin de la variable en el grupo de referencia. El propsito de la prueba es averiguar si existen diferencias estadsticamente significativas entre la distribucin observada (Fo) y la distribucin esperada (Fe). En la prueba de bondad se planean las siguientes hiptesis estadsticas: Hiptesis estadstica nula: Ho: Fo=Fe Hiptesis estadstica alterna: Ha: FoFe El procedimiento e la prueba incluyen el clculo de la medida de resumen llamada Chi cuadrada. El rechazo del Ho ocurre cuando el valor calculado con los datos resulta mayor que el valor crtico de dicha medida contenido en una tabla llamada Valores Crticos de Chi cuadrada. En el caso que el valor de Chi cuadrada sea igual o menos al de Chi cuadrada crtica se dice que no se rechaza Ho y, por tanto, se concluye que la Fo es semejante a la Fe. En otras palabras, se dice que ambas distribuciones se ajustan bien: de ah el nombre de prueba: Bondad de ajuste. Ejemplo Se ha tomado una muestra aleatoria de 40 bateras y se ha registrado su duracin en aos. Estos resultados se los ha agrupado en 7 clases en el siguiente cuadro i 1 2 3 4 5 6 clase (duracin) frecuencia observada (oi) 1.45 1.95 1.95 2.45 2.45 2.95 2.95 3.45 3.45 3.95 3.95 4.45 2 1 4 15 10 5

4.45 4.95

Verificar con 5% de significancia que la duracin en aos de las bateras producidas por este fabricante tiene duracin distribuida normalmente con media 3.5 y desviacin estndar 0.7 Solucin Sea X: duracin en aos (variable aleatoria contnua) 1) Ho: X ~ N(3.5,0.7) (distribucin normal, =3.5, =0.7) 2) Ha: no H0 3) = 0.05 Clculo de la probabilidad correspondiente a cada intervalo p1 = P(X1.95) = P(Z(1.95 3.5)/0.7) = 0.0136 p2 = P(1.95X2.45) = P((1.95 3.5)/0.7 Z (2.45 3.5)/0.7) = 0.0532 ... (etc) Clculo de las frecuencias esperadas e1 = p1 n = 0.0136 (40) 0.5 e2 = p2 n = 0.0532 (40) 2.1 ... (etc)

Ahora se puede definir la regin de rechazo de Ho. Observemos que en este ejemplo la media y la desviacin estndar de la distribucin normal no se estimaron, sino que estn propuestas, de donde r = 0

5) Clculo del estadstico de prueba

6) Decisin Como 3.05 no es mayor a 7.815, se dice que no hay evidencia suficiente para rechazar el modelo propuesto para la poblacin.

4.1.1 Anlisis de Ji cuadrada En realidad la distribucin ji-cuadrada es la distribucin muestral de s2. O sea que si se extraen todas las muestras posibles de una poblacin normal y a cada muestra se le calcula su varianza, se obtendr la distribucin muestral de varianzas. Para estimar la varianza poblacional o la desviacin estndar, se necesita conocer el estadstico X2. Si se elige una muestra de tamao n de una poblacin normal con varianza , el estadstico: Tiene una distribucin muestral que es una distribucin ji-cuadrada con gl=n-1 grados de libertad y se denota X2 (X es la minscula de la letra griega ji). El estadstico ji-cuadrada esta dado por: . donde n es el tamao de la muestra, s2 la varianza muestral y la varianza de la poblacin de donde se extrajo la muestra. El estadstico ji-cuadrada tambin se puede dar con la siguiente expresin: Ejemplo: Suponga que los tiempos requeridos por un cierto autobs para alcanzar un de sus destinos en una ciudad grande forman una distribucin normal con una desviacin estndar =1 minuto. Si se elige al azar una muestra de 17 tiempos, encuentre la probabilidad de que la varianza muestral sea mayor que 2. Solucin: Primero se encontrar el valor de ji-cuadrada correspondiente a s2=2 como sigue:

El valor de 32 se busca adentro de la tabla en el rengln de 16 grados de libertad y se encuentra que a este valor le corresponde un rea a la derecha de 0.01. En consecuencia, el valor de la probabilidad es P(s2>2)

4.1.2 pruebas de independencia

Cuando cada individuo de la poblacin a estudio se puede clasificar segn dos criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la representacin de las frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia. Los datos se disponen de la forma

Siendo nij el nmero de individuos que presentan simultneamente la i-sima modalidad del carcter A y la jsima del B. La hiptesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma independiente en los individuos de la poblacin de la cual se extrae la muestra; siendo la alternativa la dependencia estocstica entre ambos caracteres. La realizacin de esta prueba requiere el clculo del estadstico Dnde:

Son las frecuencias absolutas marginales y El estadstico L se distribuye como una nivel de significacin del 5%. Ejemplo:

el tamao muestral total.

con (a - 1)(b - 1) grados de libertad. El contraste se realiza con un

Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se seleccion una muestra aleatoria simple de 100 jvenes, con los siguientes resultados: Sin depresin Deportista No deportista 38 31 Con depresin 9 22 47 53

69

31

100

L = (38 32,43)2/32,43 + (31 36,57)2/36,57 + (9 14,57)2/14,57 + (22 16,43)2/16,43 = 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227 El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de Chi Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la hiptesis de independencia de caracteres con un nivel de significacin del 5%, admitiendo por tanto que la prctica deportiva disminuye el riesgo de depresin.

4.1.3 Prueba de bondad del ajuste Estas pruebas permiten verificar que la poblacin de la cual proviene una muestra tiene una distribucin especificada o supuesta. Sea X: variable aleatoria poblacional f0(x) la distribucin (o densidad) de probabilidad especificada o supuesta para X

Se desea probar la hiptesis: Ho: f(x) = f0(x) En contraste con la hiptesis alterna: Ha: f(x) no= f0(x) (negacin de Ho)

Ejemplo: La siguiente tabla presenta informacin de cantidades sobre el nmero de plantas Larrea divaricata halladas en cada uno de los 48 cuadrantes de nuestro, como se publica en el el artculo Some Sampling Characteristics of Plants and Arthropods of the Arizona Desert (Ecology,1962: 567-571)

i 1 2 3 4 5 6

Nro. De plantas 0 1 2 3 4 5

frecuencia observada (oi) 9 9 10 14 2 2

Podran estos datos ajustarse a una distribucin de Poissn? Utilice un nivel 0,05 de significancia. Solucin El valor de en este caso debe estimarse 1) Ho: X ~ Poisson(2,10) 2) Ha: no H0 3) = 0.05 (distribucin de Poisson con = 2,10 )

Es necesario que se cumpla la condicin i, ei 5 por lo que se deben agrupar clases adyacentes. Como resultado se tienen cinco clases k=5 Ahora se puede definir la regin de rechazo de Ho

Observemos que en este ejemplo se estim el parmetro de la distribucin, de donde r = 1

5) Clculo del estadstico de prueba 6) Decisin Como 6,31 no es mayor a 7.815, se dice que no hay evidencia suficiente para rechazar el modelo propuesto para la poblacin, de modo que al nivel de 5%, la distribucin de Poisson da un ajuste razonable a los datos.

4.1.4 Tablas de contingencia La tabla de contingencia es una tabla de doble entrada, donde en cada casilla figurar el nmero de casos o individuos que poseen un nivel de uno de los factores o caractersticas analizadas y otro nivel del otro factor analizado Para analizar la relacin de dependencia o independencia entre dos variables cualitativas nominales o factores, es necesario estudiar su distribucin conjunta o tabla de contingencia. La tabla de contingencia se define por el nmero de atributos o variables que se analizan conjuntamente y el nmero de modalidades o niveles de los mismos. Las tablas de contingencia tienen dos objetivos fundamentales: 1) Organizar la informacin contenida en un experimento cuando sta es de carcter bidimensional, es decir, cuando est referida a dos factores (variables cualitativas). 2) A partir de la tabla de contingencia se puede adems analizar si existe alguna relacin de dependencia o independencia entre los niveles de las variables cualitativas objeto de estudio. El hecho de que dos variables sean independientes significa que los valores de una de ellas no estn influidos por la modalidad o nivel que adopte la otra. Ejemplo:

También podría gustarte