Está en la página 1de 7

Pruebas no paramtricas: Prueba chi-cuadrado de la bondad de ajuste para verificar normalidad. Prueba chi-cuadrado para verificar el supuesto de independencia.

Tablas de contingencia. Como se ha dicho, una prueba no paramtrica es aquella que no requiere del conocimiento de parmetros o caractersticas de la distribucin poblacional. Existen pruebas no paramtricas para los ms variados estudios, incluidos aquellos que tambin pueden realizarse mediante pruebas paramtricas; no obstante, si se puede escoger para una investigacin dada entre efectuar una prueba paramtrica y una no paramtrica, se debe preferir la paramtrica, pues stas son siempre ms potentes que las no paramtricas equivalentes. La ventaja de las pruebas no paramtricas radica precisamente en el hecho de que no se necesita del conocimiento de caractersticas poblacionales que en muchos casos son ignoradas.

Entre las pruebas no paramtricas ms conocidas estn las llamadas pruebas chicuadrado, que deben su nombre a que el estadgrafo de prueba utilizado sigue la distribucin homnima. Las pruebas chi-cuadrado, en general, pretenden decidir sobre si una determinada variable, emprica u observada, cumple una cierta condicin terica. La hiptesis nula en estas pruebas siempre est asociada al cumplimiento de la condicin, y la verificacin se basa en comparar los valores observados con los valores tericos esperados bajo dicha condicin: Si las diferencias entre lo observado y lo esperado son muy grandes, es decir, mayores que un valor tomado como crtico, se rechaza la hiptesis nula y se asume que no se cumple la condicin supuesta. Dos de las aplicaciones inmediatas de las pruebas chi-cuadrado son las que se conocen como pruebas para la bondad del ajuste y pruebas para independencia. Las pruebas para la bondad del ajuste se utilizan para verificar si un grupo de datos u observaciones se ajusta bien al comportamiento de alguna distribucin probabilstica conocida, como la normal o la de Poisson. Existen muchos problemas donde el inters del investigador se centra en contrastar hiptesis sobre cmo se distribuye el nmero de sucesos que pertenecen a ciertas categoras; la prueba chi-cuadrado no es la nica aplicable a este tipo de estudios: para anlisis de normalidad, por ejemplo, se utilizan mucho tambin la prueba Kolmogorov - Smirnov y la prueba Jarque - Bera, entre otras. Las pruebas de independencia buscan establecer si dos variables son independientes entre s o no. Tampoco son las nicas en este sentido; cabe mencionar las de Cramer y las de Kendall.

PRUEBA CHI-CUADRADO PARA NORMALIDAD: Tiene gran importancia el poder conocer si un grupo de datos sigue o no una distribucin normal. La prueba X2es adecuada para dar solucin a este tipo de problema. Las hiptesis correspondientes a esta prueba son: H0: x N (la variable sigue una distribucin normal) H1: x / N (la variable no sigue una distribucin normal) Para verificar la hiptesis de normalidad se toma una muestra aleatoria de tamao n y se agrupan las observaciones en k clases o categoras, determinando para cada clase las frecuencias observadas (oI noI). La prueba busca comparar tales frecuencias observadas con las frecuencias esperadas bajo la condicin de normalidad (eI neI); las cuales se calculan multiplicando el total de observaciones (n) por la probabilidad adjudicable a la variable de pertenecer a cada clase asumiendo que hay normalidad (Pi), as: neI = nPI El estadstico de prueba se define cmo:
Y la regin crtica correspondiente es:
( )
)}

Nota: De forma general el estadgrafo de prueba en las pruebas chi-cuadrado para la bondad del ajuste tiene k - m -1 grados de libertad, siendo k la cantidad de clases o categoras en que se ha distribuido la variable (garantizando que se cumplan determinados supuestos), y m es la cantidad de parmetros que caracterizan a la distribucin bajo anlisis: en el caso de una distribucin normal, sta se caracteriza totalmente con y , luego m = 2, por lo que los grados de libertad resultan k - 3. Para realizar la prueba deben cumplirse los siguientes supuestos o restricciones: Si k = 2, ninguna frecuencia esperada (eI neI) debe ser menor que 5 Si k > 2, solo el 20% de las frecuencias esperadas (eI nei) puede ser menor que 5 Ninguna frecuencia esperada (eI neI) puede ser menor que 1 En caso de que se viole algn supuesto, esto se resuelve agrupando clases adyacentes hasta que se logre el cumplimiento. En cualquier caso, es evidente que al final de los clculos debe cumplirse que: Pi = 1.

Procedimientos para el clculo de las Pi:

Como los datos suelen estar en su forma primaria, el primer paso es organizarlos, creando clases, pues la distribucin normal corresponde a una variable continua. Para

ello se debe determinar el recorrido de la variable, decidir cuntas clases conviene usar y calcular el ancho de clases necesarios. Una vez hecho esto se debern estimar los dos parmetros que caracterizan a la distribucin normal: y . Con las correspondientes estimaciones se pasar a calcular para cada clase la probabilidad de que una variable con distribucin normal pertenezca a la misma; en este clculo, dado el comportamiento terico normal, la primera clase se considera como originada en menos infinito (-), y la ltima clase como extendida hasta infinito (). Con esas probabilidades se calculan las frecuencias esperadas, verificndose que se cumplen los supuestos requeridos. Finalmente, se obtiene el valor del estadgrafo de prueba, que permite tomar una decisin. Como se aprecia, el procedimiento es bastante laborioso, sobre todo el clculo de la probabilidad correspondiente a cada clase; por eso, si se tiene una muestra relativamente grande (n mayor que 60 100 observaciones), se puede recurrir a un mtodo alternativo que simplifica algunos clculos, y que se basa en la regla de las tres sigmas asociada a la distribucin normal. Vale la pena recordar que la regla de las tres sigmas establece que para toda distribucin normal con media y desviacin tpica el rea bajo la curva de su funcin de densidad se distribuye de la siguiente forma:

Lo cual equivale a decir que: 1. 2. 3. P( < X < +) = 68.27% del rea bajo la curva normal P( 2 < X < +2) = 95.45% del rea bajo la curva normal P( 3 < X < +3) = 99.73% del rea bajo la curva normal

El mtodo alternativo propuesto sugiere aprovechar esto para construir los intervalos de clase de manera que las probabilidades correspondientes sean siempre valores fijos, dados por las secciones en que queda subdividida el rea bajo la curva.

Entonces, se proceder como sigue: 1 Primeramente se estimarn y a partir de la totalidad de los datos sin tabular 1 Se crearn 6 clases, partiendo de la estimacin para en el centro de las clases (o sea, como lmite superior de la tercera clase e inferior de la cuarta) y tomando como ancho de clases la estimacin para . 1 Se adjudicarn las frecuencias observadas correspondientes a cada clase, y las respectivas probabilidades, valores estos ltimos que siempre sern: 0.0228, 0.1359, 0.3413, 0.3413, 0.1359 y 0.0228. 1 Finalmente, se calcularn las frecuencias esperadas, y se verificar que se cumplan los supuestos; luego se obtendr el estadgrafo de prueba. Ejemplo: A partir de la muestra siguiente, se quiere verificar, con un nivel de significacin del 5%, si la misma procede de una poblacin normal.

10 10 16 19 20 17 21 24 24 24 Solucin:

12 11 16 20 19 16 22 23 23 24

13 15 20 17 19 23 22 24 20 23

14 10 17 18 18 24 21 23 21 21

15 15 18 20 17 23 22 21 21 22

22 26 30 29 27 27 29 35 34 31

28 26 28 26 27 31 33 32 37 38

30 28 27 26 26 32 33 31 41 36

30 27 26 28 26 33 32 38 39 36

29 29 30 29 28 33 31 39 41 40

En el problema se tiene que: n = 100 y X = 2500 Por tanto: ( ) y

Es decir, se partir de x = 25 como valor que cierra la tercera clase y abre la cuarta, y tomando como ancho de clase c = s = 7.4, se crearn las clases y la tabla de frecuencias:

Clases
- 10.2 10.2 17.6 17.6 25.0 25.0 32.4 32.4 39.8 39.8

Noi
3 14 34 33 14 2

Pi
0,0228 0,1359 0,3413 0,3413 0,1359 0,0228

Nei = n.pi
2,28 13,59 34,13 34,13 13,59 2,28

Nota: Puesto que las clases se han creado atendiendo al criterio derivado de la regla de las 3 sigmas, las probabilidades correspondientes son los valores antes listados. No obstante, a continuacin se muestra cmo calcularlas, para el caso en que no se quiera o no se pueda seguir este mtodo, o incluso siguindolo no se recuerden las probabilidades: P1 = P( x 10.2 ) = P [ z (10.2 25)/ 7.4 ] = P ( z -2 ) = Fz (-2) = 0.0228 P2 = P( 10.2 < x 17.6 ) = P( -2 < z -1 ) = Fz (-1) - Fz (-2) = 0.1587 - 0.0228 = 0.1359 P3 = P( 17.6 < x 25 ) = P ( -1 < z 0 ) = Fz (0) - Fz (-1) = 0.5 - 0.1587 = 0.3413 P4 = P( 25 < x 32.4 ) = P( 0 < x 1 ) = Fz (1) - Fz (0) = 0.8413 - 0.5 = 0.3413 P5 = P( 32.4 < x 39.8 ) = P( 1 < z 2 ) = Fz (2) - Fz (1) = 0.9772 - 0.8413 = 0.1359 P6 = P( x > 39.8) = P( z > 2 ) = 1 - Fz (2) = 1 - 0.9772 = 0.0228 Una vez completada la tabla se debe comprobar el cumplimiento de las restricciones, y se verifica que: PI = 1 Todas las frecuencias esperadas son mayores que 1 Dos clases tienen frecuencias esperadas menores que 5, de un total de seis, lo que equivale a decir que el 33% de las frecuencias esperadas (2/6 = 0.33) son menores que 5, por lo que se viola esta restriccin.

Para remediar el no cumplimiento en la restriccin anterior se debe agrupar clases adyacentes; en este caso se pudieran agrupar la primera y la segunda clases, o la quinta y la sexta, y como hay dos posibilidades de agrupamiento se debe preferir aquella en

donde inicialmente hay ms diferencias entre las frecuencias esperadas y los observadas, que aqu se corresponde con las clases primera y segunda. La tabla, despus de agrupadas las clases queda:

Clases - 17.6 17.6 25.0 25.0 32.4 32.4 39.8 39.8

Noi 17 34 33 14 2

Nei 15,87 34,13 34,13 13,59 2,28

Ahora, de cinco clases en total, una tiene la frecuencia esperada menor que 5, lo que hace constituye el 20%, que es justo el mximo admitido para esta restriccin, que se puede dar ya entonces por cumplida. Queda, pues, k = 5.

Hiptesis: H0: x N H1: x N Regin crtica:


{
( )}

( )}

(=0.05)

Decisin: El estadgrafo de prueba es:


( ) ( )

0 = 0.1374 < 5.99 O sea: C 2 2 Esto quiere decir que puede aceptarse, con una significacin del 5%, que los datos siguen una distribucin normal. PRUEBA CHI-CUADRADO PARA INDEPENDENCIA: 0 W , por lo que no se rechaza H0.

Otro problema que requiere de una prueba estadstica es el de contrastar el supuesto de independencia estadstica entre dos variables aleatorias. La prueba resultante puede ser aplicada para variables tanto cualitativas como cuantitativas. Las hiptesis correspondientes son: H0: X y Y son independientes

También podría gustarte