Está en la página 1de 24

1

TABLA DE CONTENIDO

INTRODUCCION_______________________________________________________________2 OBJETIVOS____________________________________________________________________3 MARCO TEORICO______________________________________________________________4 DISTRIBUCION CHI- CUADRADO. ( )___________________________________________5 PRUEBAS DE BONDAD DE AJUSTE.______________________________________________5
Definicin..................................................................................................................................................5 Prueba para un ajuste uniforme..............................................................................................................8 Prueba de ajuste a un patrn especifico................................................................................................10 Prueba de Normalidad...........................................................................................................................11 Utilizando la formula (1.1) se tiene que:...............................................................................................16 (20-22.8)2 (142-135.9)2 (310-341.3) 2 (370-341.3) 2 (128-135.9) 2 (40-22.8 ) 2 ........................16 2=---------- + ----------- + ------------ + ------------- + ----------- + ----------...........................................16 22.8 135.9 341.3 341.3 135.9 22.8..............................................16 Tablas de Contingencia..........................................................................................................................17
Atributo B Ubicacin...........................................................................................................................................18 Atributo B - Ubicacin...........................................................................................................................................19 Atributo A - Clasificacin..................................................................................................................................19

CONCLUSION_________________________________________________________________21 BIBLIOGRAFIA_______________________________________________________________22 ANEXOS______________________________________________________________________23


TABLA E DISTRIBUCION NORMAL............................................................................................23 TABLA H DISTRIBUCION CHI-CUADRADO..............................................................................24

2 INTRODUCCION

Siempre que obtengamos muestras de una poblacin, existe la cuestin de la confiabilidad de los resultados obtenido por muestreo con respecto a la poblacin. Necesitamos saber si las diferencias entre los resultados obtenidos por muestreo y los esperados de acuerdo con las leyes de las probabilidades son los suficientemente pequeas como para que no afecten las inferencias que deseamos obtener de los datos para nuestro uso. En otras palabras, necesitamos saber si los datos obtenidos son confiables y no contienen errores que puedan invalidar sus resultados. Una de las medidas de la discrepancia mas tiles es la prueba Chi-cuadrado, la cual viene proporcionada por el estadstico 2. Si exactamente. A valores ms grandes de observadas y esperadas.
2 2

= 0, las frecuencias observadas


2

y tericas coinciden completamente; mientras que si

>0, no coinciden

mayor discrepancia entre las frecuencias

OBJETIVOS

1. Comprender la importancia de comparar los resultados obtenidos por muestreo, con los resultados esperados tericamente con las leyes de la probabilidad. 2. Aprender a aplicar la prueba
2

para diferentes supuestos o hiptesis

de acuerdo a los datos obtenidos. 3. Aprender el uso de tablas de contingencia para medir la relacin entre diferentes factores que afectan un conjunto de datos.

MARCO TEORICO

Las pruebas que requieren de un supuesto respecto a la poblacin, se denominan pruebas parametricas, debido a que tales pruebas dependen de estos postulados y sus parmetros. En la practica, surgen muchas situaciones en las cuales no es posible hacer de forma segura ningn supuesto sobre el valor de un parmetro o sobre la forma de su distribucin poblacional. Entonces se deben utilizar otras pruebas que no dependan de un solo tipo de distribucin o de valores parametricos especficos. Estas pruebas se denominan no parametricas. Estas pruebas son procedimientos estadsticos que pueden utilizarse para contrastar hiptesis cuando no son posibles los supuestos respecto a los parmetros o a las distribuciones poblacionales. Dentro de estas pruebas se encuentran las de Chi-cuadrado ( 2), la del Signo, de Rachas, de Mann-Whitney y otras. Para el calculo del estadstico Chi-cuadrado ( 2, es necesario emplear tanto observaciones de muestras como propiedades de ciertos parmetros de la poblacin. Si estos parmetros son desconocidos, hay que estimarlos a partir de la muestra. l numero de grados de libertad de un estadstico, generalmente denotado por v, se define como el numero N de observaciones independientes en la muestra (o sea el tamao de la muestra) menos el numero k de parmetros de la poblacin, que debe ser estimado a partir de observaciones mustrales. En smbolos, v = N- k. En el caso del 2, el numero de observaciones independientes en la muestra es N, de donde podemos calcular s. Sin embargo, como debemos estimar , k = 1 y v = N-1.

DISTRIBUCION CHI- CUADRADO. ( )

Una de las herramientas no parametricas mas tiles es la prueba chi cuadrado ( 2). Al igual que la distribucin t, la distribucin Chi-cuadrado es toda una familia de distribuciones. Existe una distribucin Chi-cuadrado para cada grado de libertad. a medida que se incrementa el numero de grados de libertad, la Las dos aplicaciones ms distribucin Chi-cuadrado se vuelve menos sesgada. independencia a travs de las tablas de contingencia.

comunes de Chi-cuadrado son las pruebas de bondad de ajuste y las pruebas de

PRUEBAS DE BONDAD DE AJUSTE.

Definicin.

Medidas sobre una forma de

que tan cerca se ajustan los datos muestrales observados a Si el ajuste es

distribucin particular planteada como hiptesis.

razonablemente cercano, puede concluirse que si existe la forma de distribucin planteada como hiptesis.

Las tomas de decisiones en los negocios muchas veces requiere que se pruebe alguna hiptesis sobre una distribucin poblacional desconocida. Por ejemplo, se puede plantear la hiptesis que la distribucin poblacional es uniforme y que todos los valores posibles tienen la misma probabilidad de ocurrir. Las hiptesis que se probaran son:

HO: la distribucin poblacional es uniforme. HA: la distribucin poblacional no es uniforme.

La prueba de bondad de ajuste se utiliza entonces para determinar si la distribucin de los valores en la poblacin se ajusta a una forma en particular planteada como hiptesis, en este caso, una manera distribucin uniforme. De la misma que con todas las pruebas estadsticas de esta naturaleza, los datos

muestrales se toman de la poblacin y estos constituyen la base de los hallazgos.

Si 2=0, las frecuencias observadas y esperadas coinciden completamente; mientras que si 2>0, no coinciden exactamente. A valores ms grandes de 2, mayor discrepancia existe entre las frecuencias observadas y esperadas. Si existe gran diferencia entre la frecuencia observada en la muestra y lo que se esperara observar, en tal caso es menos probable que la hiptesis sea verdadera. Es decir, la hiptesis debe rechazarse cuando las observaciones obtenidas en la muestra difieren tanto del patrn que se espera que ocurra la distribucin planteada como hiptesis, que no puede ser atribuida a un error de muestreo. En tales casos la hiptesis no es lo suficientemente confiable para una buena toma de decisiones.

Por ejemplo, si se hace rodar un dado bueno, es razonable plantear como hiptesis un patrn de resultados tal que cada resultado (un numero del 1 al 6) ocurra aproximadamente un sexto de las veces. Sin embargo, si un porcentaje de nmeros pares ocurre, significativamente grande o significativamente pequeo es falsa.

puede concluirse que el dado no esta balanceado adecuadamente y que la hiptesis

7
Para contrastar la hiptesis relativa a una distribucin poblacional, se debe analizar la diferencia entre las expectativas con base en la distribucin planteada como hiptesis y los datos reales que aparecen en la muestra. Esto es precisamente lo que hace la prueba Chi-cuadrado de bondad de ajuste. Determina si las observaciones muestrales se ajustan a las expectativas. La prueba toma la siguiente forma: k (Oi - Ei) = --------------i=1 Ei en donde Oi Ei k es la frecuencia de los eventos observados en los datos muestrales es la frecuencia de los eventos esperados si la hiptesis es correcta es el numero de categoras o clases

(1.1)

La prueba tiene K - m - 1 grados de libertad, en donde m es el numero de parmetros a estimar. Vale la pena notar que el numerador de la formula (1.1) mide la diferencia

entre las frecuencias de los eventos observados y las frecuencias de los eventos esperados al cuadrado. Cuando estas diferencias son grandes, haciendo que se incremente, debera rechazarse la hiptesis. Dependiendo de los datos disponibles, podemos realizar la prueba de Chi-cuadrado de bondad de ajuste de tres maneras, pruebas para una ajuste uniforme, pruebas de ajuste para un patrn especifico y pruebas de normalidad.

Prueba para un ajuste uniforme

Esta prueba de Chi-cuadrado se usa cuando la frecuencia esperada para todas las clases es uniforme, de aqu su nombre. Ilustramos esta prueba con el siguiente ejemplo:
Chris Columbus, director de mercadeo de Seven Seas, Inc, tiene la responsabilidad de controlar el nivel de existencia para cuatro tipos de botes vendidos por su firma. En el pasado ha ordenado nuevos botes bajo la premisa de que los cuatro tipos son igualmente populares y la demanda de cada tipo es la misma. Sin embargo, recientemente las existencias se han vuelto ms difciles de controlar, y Chris considera que debera probar su hiptesis respecto a una demanda uniforme. Sus hiptesis son:

HO: La demanda es uniforme para los cuatro tipos de botes HA: La demanda no es uniforme para los cuatro tipos de botes Suponiendo uniformidad en la demanda, la hiptesis nula presume que de una muestra aleatoria de botes, los navegantes de fin de semana compraran un numero igual de cada tipo. Para probar esta hiptesis, Chris selecciona una muestra de n=48 botes vendidos durante los ltimos meses. Si la demanda es uniforme, puede esperar que 48/4=12 botes de cada tipo se vendan. La Tabla 1.1 Muestra esta expectativa junto con la frecuencia real vendida de cada tipo. Se nota que (Oi)= (Ei). Chris debe determinar ahora si los nmeros vendidos realmente en cada una de las categoras K=4 esta lo suficientemente cerca de lo que se esperara si la demanda fuese uniforme. Aplicando la formula 1.1 tenemos el siguiente resultado: TABLA 1.1 Tipo de Bote Pirate's Revenge Jolly Roger Bluebeard's Treasure Ahab's Quest Ventas Observadas(Oi) 15 11 10 12 48 Ventas Esperadas(Ei) 12 12 12 12 48

Utilizando la formula (1.1) tenemos que:

(15-12)2 (11-12)2 (10-12)2 (12-12)2 2= ------------- + ------------ + -------------+ ------------ = 1.17 12 12 12 12 El valor 1.17 se compara con un valor critico de
2

tomando de la tabla H

(ver anexo). Debido a que no existen parmetros que tengan que estimarse, m=0 y entonces los grados de libertad segn su formula es igual a 4-0-1 = 3 grados de libertad. Si Chris deseara probar al nivel del 5%, se encontrara que
2 0.05,3

> 7.815

Regla de decisin: No rechazar si

< 7.815. Rechazar si 2>7.815

Gracias a que 1.17< 7.815, la hiptesis nula de que la demanda es uniforme no se rechaza. Las diferencias entre lo que se observo en realidad, O i, y lo que Chris esperaba observar si la demanda fuera la misma para los cuatro tipos de botes, Ei, no son los suficientemente grandes como para refutar la hiptesis nula. Las diferencias no son significativas y pueden atribuirse simplemente a un error de muestreo.

Prueba de ajuste a un patrn especifico.

En el ejemplo anterior, Chris asumi que la demanda de los cuatro tipos era la misma. Los valores para la frecuencia esperada eran por ende las mismas. Sin embargo, si los valores de los cuatro tipos de botes deben probarse contra un patrn determinado, en el cual las frecuencias esperadas vienen dadas por un patrn individual para cada categora, tendramos que realizar la prueba para un patrn especifico dado. En este caso Ei se determina por Ei = npi, en donde pi es la probabilidad individual de cada categora y n es el tamao de la muestra. Si deseamos probar que las ventas reales se ajustan a las probabilidades dadas en la tabla 1.2, teniendo probabilidades de 30%, 20%, 40% y 10% para cada una de las categoras respectivamente, entonces debemos proceder como sigue: TABLA 1.2 Tipo de Bote Pirate's Revenge Jolly Roger Bluebeard's Treasure Ahab's Quest Ventas Observadas(Oi) 15 11 10 12 48 Ventas Esperadas(Ei) 14.40 9.60 19.20 4.80 48

(15-14.4)2 (11-9.6)2 (10-19.2)2 (12-4.8)2 = -------------+-------------+-------------+----------- = 15.41 14.4 9.6 19.2 4.8

El valor 15.41 se compara con el valor critico de

tomado de la tabla H (Ver

anexo). De nuevo no existen parmetros que tengan que estimarse, m = 0 y entonces los grados de libertad segn su formula es igual a 4-0-1=3 grados de libertad. De la misma manera deseamos probar al nivel del 5%, se encontrara que
2 0.05,3

> 7.815
2

Regla de decisin: No rechazar si

< 7.815. Rechazar si 2>7.815

Dado que 15.41> 7.815, la hiptesis nula de que la demanda se ajusta a un patrn especifico se rechaza. Las diferencias entre lo que se observo en realidad, Oi, y lo que Chris esperaba observar si la demanda fuera la dada segn la tabla 1.2 para los cuatro tipos de botes, Ei, son los suficientemente grandes como para refutar la hiptesis nula. Las diferencias son significativas y no pueden atribuirse simplemente a un error de muestreo.

Prueba de Normalidad

Si nos encontramos frente a una cantidad grande de observaciones y deseamos saber si estas se comportan de acuerdo a las reglas de la normalidad, es decir que sus probabilidades pueden ser encontradas por medio de la Tabla del rea bajo la campana de Gauss o Curva Normal, entonces podemos utilizar la prueba Chicuadrado para determinar el grado de ajuste con que esta distribucin se acerca a la distribucin normal. Veamos el siguiente ejemplo:
Las especificaciones para la produccin de tanques de aire utilizados en inmersin requieren que los tanques se llenen a una presin promedio de 600 psi. Se permite una desviacin estndar de 10 psi. Las especificaciones de seguridad permiten una distribucin normal en los niveles de llenado. Deseamos determinar si los niveles de llenado se ajustan a una distribucin normal, o sea si cumplen con los requisitos establecidos, para hacerlo se miden n = 1,000 tanques y se halla la distribucin presentada en la tabla 1.3. Nuestras hiptesis son:

HO: Los niveles de llenados estn distribuidos normalmente. HA: Los niveles de llenado no estn distribuidos normalmente.

1
TABLA 1.3 PSI 0 y por debajo de 580 580 y por debajo de 590 590 y por debajo de 600 600 y por debajo de 610 610 y por debajo de 620 620 y por encima Total Frecuencia Real 20 142 310 370 128 30 1,000

Igual que antes, la prueba requiere comparar estas observaciones reales con las que esperaramos encontrar si prevaleciera la normalidad. Para encontrar las frecuencias esperadas debemos calcular las probabilidades de que los tanques seleccionados aleatoriamente tengan los niveles de contenido en los intervalos presentados en la tabla 1.3.

a) La probabilidad de que un tanque caiga en el primer intervalo P(0<X>%580). El problema esta representado en la figura 1.3a. Debemos determinar el rea sombreada bajo la curva. As:

X- Z=---------

-2 0 (a)

580 600 Z=------------ = -2 O UN AREA DE 0.4772 10 Entonces P(0<X< 580) = 0.5000-0.4772 = 0.0228

(1)

De la misma manera encontramos las dems probabilidades como sigue:

b) La probabilidad de (580<X<590)

X- Z=--------

-2 590 - 600 Z=------------- = -1 O UN AREA DE 0.3413 10 Entonces:

-1

0 (b)

P(580<X<590)=P(580) dado en (a) P(590)=0.47720.3413=0.1359 (2) c) La probabilidad de P(590<X<600) Como la media es 600, Z = 0, entonces la probabilidad de P(0<X<590) es la misma que (b). Entonces P(590<X<600) = 0.3413 (3)

-1

1
d) La probabilidad de P(600<X<610)

X- Z=--------- 610 600 Z=--------------- = 1 O UN AREA DE 0.3413 10 0 1

Entonces como la media de nuevo es 600, Z=0, la probabilidad de P(600<X<610) es la misma que (b). Entonces P(600<X<610) =0.3413(4)

e) La probabilidad de (610<X<620)

X- Z=--------- 610 600 Z=------------ = 1 O UN AREA DE 0.1359 10 0 1 2

Dado que P(620) = P(580) y P(610) = P(590) por que estn a la misma distancia de la media z=0. Entonces por simetra podemos usar los mismos valores de z y las mismas probabilidades dados en (2). P(610<X<620) = P(X<610) P(X<620) = 0.4772 0.1359 = 0.3413 (5)

1
f) La probabilidad de P(X>620)

X- Z=---------

620 600 Z=------------- = 2 O UN AREA DE 0.4772 10 Entonces P(0<X< 580) = 0.5000-0.4772 = 0.0228

(6)

Se desea probar la hiptesis al nivel del 5%. Debido a que tanto la media como la desviacin estndar son dadas y no tienen que estimarse, m=0. Existen k=6 clases, de manera que los grados de libertad son k-0-1=5. El valor critico de =11.07
2

en

0.05,5

Regla de decisin: No rechazar si

< 11.07. Rechazar si 2>7.815

Completamos los datos en la tabla 1.4 con los resultados anteriores y calculamos los valores esperados Ei = npi.

1
TABLA 1.4 PSI 0 y por debajo de 580 580 y por debajo de 590 590 y por debajo de 600 600 y por debajo de 610 610 y por debajo de 620 620 y por encima Frecuencia Real 20 142 310 370 128 30 1000 Probabilidades Frecuencia esperada (pi) 0.0228 0.1359 0.3413 0.3413 0.1359 0.0228 1.000 (Ei) 22.8 135.9 341.3 341.3 135.9 22.8 1000

Utilizando la formula (1.1) se tiene que: (20-22.8)2 (142-135.9)2 (310-341.3) 2 (370-341.3) 2 (128-135.9) 2 (40-22.8 ) 2 2=---------- + ----------- + ------------ + ------------- + ----------- + ---------22.8 135.9 341.3 341.3 135.9 22.8

=8.63
De acuerdo a la regla de decisin la hiptesis no debe rechazarse. Las

diferencias entre lo esperado y lo que se observo con una media de 600 y una desviacin estndar de 10, a un nivel de 5%, pueden atribuirse a un error de

muestreo por debajo del nivel elegido, ya que el valor de normal.

es inferior con respecto

al valor maximo esperado para una muestra distribuida de acuerdo a la distribucion

Tablas de Contingencia Cuando estamos ante una tabla en la que las frecuencias que observamos ocupan una sola fila, entonces decimos que estamos ante una tabla de clasificacin de entrada nica o tabla 1 x c (Se lee 1 por c).

SUCESO Frecuencia observada Frecuencia esperada

E1 o1 e1

E2 o2 e2

E3 o3 e3

....

EK ok ek

Si queremos investigar el acuerdo que existe entre las frecuencias observadas y las frecuencias esperadas debemos hacerlo calculando el estadstico (1.1) k = i=1 (Oi - Ei) --------------Ei

Como antes, el estadstico (1.1) tiene una distribucin muestral dada. El numero de grados de libertad, v, de esta distribucin Chi-cuadrado viene dado por c>1 y k>1 por:

1. V = (f-1)(c-1) si las frecuencias esperadas se pueden calcular sin recurrir a


estimaciones muestrales de los parmetros de la poblacin.

2. V = (f-1)(c-1)-m si las frecuencias esperadas solo se pueden calcular


mediante estimacin de m parmetros de la poblacin a partir de estadsticos de la muestra. Una hiptesis comn es suponer que las dos clasificaciones son mutuamente independientes.

Las tablas de contingencia se pueden usar para generalizarse a mas dimensiones como veremos en el siguiente ejemplo: Naydisita Cabral es la directora de investigacin de productos en MercaSid. En su proyecto actual la seorita Cabral debe determinar si existe alguna relacin entre la clasificacin de efectividad que los consumidores asignan a un nuevo producto y la ubicacin (Urbano o Rural) en el cual se utiliza. De los 100 consumidores a los que se le practico la encuesta, 75 vivan en zonas urbanas y 25 en zonas rurales, La tabla 1.4 resume las clasificaciones hechas por cada consumidor en una tabla de contingencia. La tabla tiene f = 3 filas y c = 2 columnas, existen fc = 6 celdas en la tabla. Vale la pena observar que 31 clientes clasificaron el producto por encima del promedio, 20 de ellos estaban en zonas urbanas.

Atributo B U bi ca ci n Atributo A - Clasificacin Urbano Rural Por encima del Promedio 20 11 Promedio 40 8 Por debajo del Promedio 15 6 Total 75 25 Total 31 48 21 100

La seorita Cabral desea comparar el atributo B (Ubicacin) con el atributo A (Clasificacin del producto). Sus hiptesis son:

1
HO: La clasificacin y la ubicacin son independientes HA: La clasificacin y la ubicacin no son independientes Si la ubicacin no tiene ningn impacto en la clasificacin de efectividad, entonces el porcentaje de residentes urbano que clasificaron el producto por encima del producto debera ser igual al porcentaje de residentes rurales que clasificaron el producto por encima del promedio. Este porcentaje a su vez debera ser igual al de todos los usuarios que calificaron el producto por encima del promedio. Como muestra la tabla 1.5 el 31% de todos los usuarios clasificaron el producto por encima del promedio. Luego el 31% de los 75 residentes urbanos y el 31 % de los 25 residentes rurales deberan dar esta clasificacin si la clasificacin y la ubicacin son independientes. Estos valores de (75)(0.31) = 23.3 y (25)(0.31) = 7.75 dan la frecuencia esperada para cada celda como podemos observar en la tabla 1.5. Los dems valores se calculan de la misma manera.

TABLA 1.5 Atribut o B U bi ca ci Atributo A - Clasificacin Por encima del Promedio Promedio Por debajo del Promedio n Urbano Oi 20 40 15 Rural Oi 11 8 6 Total Ei 7.75 12.0 5.25 31 48 21

Ei 23.3 36.0 15.8

2
Total 75 25 100

La seorita Cabral hace la prueba de Chi-cuadrado utilizando la formula (1.1) y encuentra que:
(20-23.3)2 (11-7.75)2 (40-36)2 (8-12)2 (15-15.8) 2 (6-5.25) 2 = --------- + ----------- + ---------- + -------- +------------ + ----------- = 3.76 23.3 7.75 36 12 15.8 5.25

La prueba tiene = (f-1)(c-1) = (3-1)(2-1) = 2 grados de libertad. Si la seorita Cabral fija en 10% el grado de tolerancia entonces
2 0.10,2

= 4.605.
2<

Regla de decisin: No rechazar la hiptesis nula si

4.605

Por lo tanto la clasificacin y la ubicacin son independientes ya que 2<4.605.

CONCLUSION

Despus de haber cumplido con los objetivos trazados al inicio de este trabajo, podemos comprender mejor el alcance que tiene la prueba Chi-cuadrado en la comparacin de los resultados muestrales obtenidos y los esperados. La prueba por su nombre indica errneamente una complejidad que no tiene, ya que su desarrollo es bastante sencillo. Esperamos poder hacer uso de esta herramienta estadstica para tomar mejores decisiones de negocios.

BIBLIOGRAFIA

Spiegel, Murray R., Estadstica, Mjico, 1991, 556 pgs.

Webster, Allen L., Estadstica Aplicada a los Negocios y la Economa, Colombia,


2000, 640 pgs.

ANEXOS
TABLA E DISTRIBUCION NORMAL

TABLA H DISTRIBUCION CHI-CUADRADO

También podría gustarte