Está en la página 1de 23

1

TABLA DE CONTENIDO

INTRODUCCION_______________________________________________________________2
OBJETIVOS____________________________________________________________________3
MARCO TEORICO______________________________________________________________4
DISTRIBUCION CHI- CUADRADO. (χ ²)___________________________________________5
PRUEBAS DE BONDAD DE AJUSTE.______________________________________________5
Definición..................................................................................................................................................5
Prueba para un ajuste uniforme..............................................................................................................8
Prueba de ajuste a un patrón especifico................................................................................................10
Prueba de Normalidad...........................................................................................................................11
Utilizando la formula (1.1) se tiene que:...............................................................................................16
(20-22.8)2 (142-135.9)2 (310-341.3) 2 (370-341.3) 2 (128-135.9) 2 (40-22.8 ) 2 ........................16
χ 2=---------- + ----------- + ------------ + ------------- + ----------- + ----------...........................................16
22.8 135.9 341.3 341.3 135.9 22.8..............................................16
Tablas de Contingencia..........................................................................................................................17
Atributo B – Ubicación...........................................................................................................................................18
Atributo B - Ubicación...........................................................................................................................................19
CONCLUSION_________________________________________________________________20
BIBLIOGRAFIA_______________________________________________________________21
ANEXOS______________________________________________________________________22
TABLA E – DISTRIBUCION NORMAL............................................................................................22
TABLA H – DISTRIBUCION CHI-CUADRADO..............................................................................23
2

INTRODUCCION

Siempre que obtengamos muestras de una población, existe la cuestión de la


confiabilidad de los resultados obtenido por muestreo con respecto a la población.
Necesitamos saber si las diferencias entre los resultados obtenidos por muestreo y
los esperados de acuerdo con las leyes de las probabilidades son los suficientemente
pequeñas como para que no afecten las inferencias que deseamos obtener de los
datos para nuestro uso. En otras palabras, necesitamos saber si los datos obtenidos
son confiables y no contienen errores que puedan invalidar sus resultados.

Una de las medidas de la discrepancia mas útiles es la prueba Chi-cuadrado, la


cual viene proporcionada por el estadístico χ 2. Si χ 2
= 0, las frecuencias observadas
2
y teóricas coinciden completamente; mientras que si χ >0, no coinciden
2
exactamente. A valores más grandes de χ mayor discrepancia entre las frecuencias
observadas y esperadas.
3

OBJETIVOS

1. Comprender la importancia de comparar los resultados


obtenidos por muestreo, con los resultados esperados teóricamente con
las leyes de la probabilidad.

2
2. Aprender a aplicar la prueba χ para diferentes supuestos o
hipótesis de acuerdo a los datos obtenidos.

3. Aprender el uso de tablas de contingencia para medir la relación


entre diferentes factores que afectan un conjunto de datos.
4

MARCO TEORICO

Las pruebas que requieren de un supuesto respecto a la población, se


denominan pruebas parametricas, debido a que tales pruebas dependen de estos
postulados y sus parámetros. En la practica, surgen muchas situaciones en las cuales
no es posible hacer de forma segura ningún supuesto sobre el valor de un parámetro
o sobre la forma de su distribución poblacional. Entonces se deben utilizar otras
pruebas que no dependan de un solo tipo de distribución o de valores parametricos
específicos. Estas pruebas se denominan no parametricas. Estas pruebas son
procedimientos estadísticos que pueden utilizarse para contrastar hipótesis cuando
no son posibles los supuestos respecto a los parámetros o a las distribuciones
poblacionales. Dentro de estas pruebas se encuentran las de Chi-cuadrado (χ 2), la
del Signo, de Rachas, de Mann-Whitney y otras.

Para el calculo del estadístico Chi-cuadrado (χ 2, es necesario emplear tanto


observaciones de muestras como propiedades de ciertos parámetros de la población.
Si estos parámetros son desconocidos, hay que estimarlos a partir de la muestra.
Él numero de grados de libertad de un estadístico, generalmente denotado por
v, se define como el numero N de observaciones independientes en la muestra (o sea
el tamaño de la muestra) menos el numero k de parámetros de la población, que
debe ser estimado a partir de observaciones muéstrales. En símbolos, v = N- k.
En el caso del χ 2, el numero de observaciones independientes en la muestra

es N, de donde podemos calcular s. Sin embargo, como debemos estimar σ , k = 1 y


v = N-1.
5

DISTRIBUCION CHI- CUADRADO. (χ ²)

Una de las herramientas no parametricas mas útiles es la prueba chi -


cuadrado (χ 2). Al igual que la distribución t, la distribución Chi-cuadrado es toda
una familia de distribuciones. Existe una distribución Chi-cuadrado para cada grado
de libertad. a medida que se incrementa el numero de grados de libertad, la
distribución Chi-cuadrado se vuelve menos sesgada. Las dos aplicaciones más
comunes de Chi-cuadrado son las pruebas de bondad de ajuste y las pruebas de
independencia a través de las tablas de contingencia.

PRUEBAS DE BONDAD DE AJUSTE.

Definición.

Medidas sobre que tan cerca se ajustan los datos muestrales observados a
una forma de distribución particular planteada como hipótesis. Si el ajuste es
razonablemente cercano, puede concluirse que si existe la forma de distribución
planteada como hipótesis.

Las tomas de decisiones en los negocios muchas veces requiere que se pruebe
alguna hipótesis sobre una distribución poblacional desconocida. Por ejemplo, se
puede plantear la hipótesis que la distribución poblacional es uniforme y que todos
los valores posibles tienen la misma probabilidad de ocurrir. Las hipótesis que se
probarían son:
6

HO: la distribución poblacional es uniforme.


HA: la distribución poblacional no es uniforme.

La prueba de bondad de ajuste se utiliza entonces para determinar si la


distribución de los valores en la población se ajusta a una forma en particular
planteada como hipótesis, en este caso, una distribución uniforme. De la misma
manera que con todas las pruebas estadísticas de esta naturaleza, los datos
muestrales se toman de la población y estos constituyen la base de los hallazgos.

Si χ 2=0, las frecuencias observadas y esperadas coinciden completamente;


mientras que si χ 2>0, no coinciden exactamente. A valores más grandes de χ 2,
mayor discrepancia existe entre las frecuencias observadas y esperadas. Si existe
gran diferencia entre la frecuencia observada en la muestra y lo que se esperaría
observar, en tal caso es menos probable que la hipótesis sea verdadera. Es decir, la
hipótesis debe rechazarse cuando las observaciones obtenidas en la muestra difieren
tanto del patrón que se espera que ocurra la distribución planteada como hipótesis,
que no puede ser atribuida a un error de muestreo. En tales casos la hipótesis no es
lo suficientemente confiable para una buena toma de decisiones.

Por ejemplo, si se hace rodar un dado bueno, es razonable plantear como


hipótesis un patrón de resultados tal que cada resultado (un numero del 1 al 6)
ocurra aproximadamente un sexto de las veces. Sin embargo, si un porcentaje
significativamente grande o significativamente pequeño de números pares ocurre,
puede concluirse que el dado no esta balanceado adecuadamente y que la hipótesis
es falsa.
7

Para contrastar la hipótesis relativa a una distribución poblacional, se debe


analizar la diferencia entre las expectativas con base en la distribución planteada
como hipótesis y los datos reales que aparecen en la muestra. Esto es precisamente
lo que hace la prueba Chi-cuadrado de bondad de ajuste. Determina si las
observaciones muestrales se ajustan a las expectativas. La prueba toma la siguiente
forma:

k (Oi - Ei)²
χ ²= Σ --------------- (1.1)
i=1 Ei

en donde

Oi es la frecuencia de los eventos observados en los datos muestrales


Ei es la frecuencia de los eventos esperados si la hipótesis es correcta
k es el numero de categorías o clases

La prueba tiene K - m - 1 grados de libertad, en donde m es el numero de


parámetros a estimar.

Vale la pena notar que el numerador de la formula (1.1) mide la diferencia


entre las frecuencias de los eventos observados y las frecuencias de los eventos
esperados al cuadrado. Cuando estas diferencias son grandes, haciendo que χ ²
se incremente, debería rechazarse la hipótesis.
Dependiendo de los datos disponibles, podemos realizar la prueba de Chi-cuadrado
de bondad de ajuste de tres maneras, pruebas para una ajuste uniforme, pruebas de
ajuste para un patrón especifico y pruebas de normalidad.
8

Prueba para un ajuste uniforme

Esta prueba de Chi-cuadrado se usa cuando la frecuencia esperada para todas


las clases es uniforme, de aquí su nombre. Ilustramos esta prueba con el siguiente
ejemplo:

Chris Columbus, director de mercadeo de Seven Seas, Inc, tiene la responsabilidad de


controlar el nivel de existencia para cuatro tipos de botes vendidos por su firma. En el pasado
ha ordenado nuevos botes bajo la premisa de que los cuatro tipos son igualmente populares y
la demanda de cada tipo es la misma. Sin embargo, recientemente las existencias se han
vuelto más difíciles de controlar, y Chris considera que debería probar su hipótesis respecto a
una demanda uniforme. Sus hipótesis son:

HO: La demanda es uniforme para los cuatro tipos de botes


HA: La demanda no es uniforme para los cuatro tipos de botes

Suponiendo uniformidad en la demanda, la hipótesis nula presume que de una


muestra aleatoria de botes, los navegantes de fin de semana comprarían un numero
igual de cada tipo. Para probar esta hipótesis, Chris selecciona una muestra de n=48
botes vendidos durante los últimos meses. Si la demanda es uniforme, puede esperar
que 48/4=12 botes de cada tipo se vendan. La Tabla 1.1 Muestra esta expectativa
junto con la frecuencia real vendida de cada tipo. Se nota que Σ (Oi)=Σ (Ei). Chris
debe determinar ahora si los números vendidos realmente en cada una de las
categorías K=4 esta lo suficientemente cerca de lo que se esperaría si la demanda
fuese uniforme. Aplicando la formula 1.1 tenemos el siguiente resultado:
TABLA 1.1
Tipo de Bote Ventas Observadas(Oi) Ventas Esperadas(Ei)
Pirate's Revenge 15 12
Jolly Roger 11 12
Bluebeard's Treasure 10 12
Ahab's Quest 12 12
48 48

Utilizando la formula (1.1) tenemos que:


9

(15-12)2 (11-12)2 (10-12)2 (12-12)2


χ 2= ------------- + ------------ + -------------+ ------------ = 1.17
12 12 12 12

2
El valor 1.17 se compara con un valor critico de χ tomando de la tabla H
(ver anexo). Debido a que no existen parámetros que tengan que estimarse, m=0 y
entonces los grados de libertad según su formula es igual a 4-0-1 = 3 grados de
2
libertad. Si Chris deseara probar al nivel del 5%, se encontraría que χ 0.05,3 > 7.815

Regla de decisión: “No rechazar si χ 2


< 7.815. Rechazar si χ 2>7.815

Gracias a que 1.17< 7.815, la hipótesis nula de que la demanda es uniforme


no se rechaza. Las diferencias entre lo que se observo en realidad, O i, y lo que Chris
esperaba observar si la demanda fuera la misma para los cuatro tipos de botes, Ei,
no son los suficientemente grandes como para refutar la hipótesis nula. Las
diferencias no son significativas y pueden atribuirse simplemente a un error de
muestreo.
10

Prueba de ajuste a un patrón especifico.

En el ejemplo anterior, Chris asumió que la demanda de los cuatro tipos era la
misma. Los valores para la frecuencia esperada eran por ende las mismas. Sin
embargo, si los valores de los cuatro tipos de botes deben probarse contra un patrón
determinado, en el cual las frecuencias esperadas vienen dadas por un patrón
individual para cada categoría, tendríamos que realizar la prueba para un patrón
especifico dado. En este caso Ei se determina por Ei = npi, en donde pi es la
probabilidad individual de cada categoría y n es el tamaño de la muestra. Si
deseamos probar que las ventas reales se ajustan a las probabilidades dadas en la
tabla 1.2, teniendo probabilidades de 30%, 20%, 40% y 10% para cada una de las
categorías respectivamente, entonces debemos proceder como sigue:

TABLA 1.2
Tipo de Bote Ventas Observadas(Oi) Ventas Esperadas(Ei)
Pirate's Revenge 15 14.40
Jolly Roger 11 9.60
Bluebeard's Treasure 10 19.20
Ahab's Quest 12 4.80
48 48

(15-14.4)2 (11-9.6)2 (10-19.2)2 (12-4.8)2


2
χ = -------------+-------------+-------------+----------- = 15.41
14.4 9.6 19.2 4.8

2
El valor 15.41 se compara con el valor critico de χ tomado de la tabla H (Ver
anexo). De nuevo no existen parámetros que tengan que estimarse, m = 0 y
entonces los grados de libertad según su formula es igual a 4-0-1=3 grados de
libertad. De la misma manera deseamos probar al nivel del 5%, se encontraría que
2
χ 0.05,3 > 7.815

Regla de decisión: “No rechazar si χ 2


< 7.815. Rechazar si χ 2>7.815
11

Dado que 15.41> 7.815, la hipótesis nula de que la demanda se ajusta a un


patrón especifico se rechaza. Las diferencias entre lo que se observo en realidad, Oi,
y lo que Chris esperaba observar si la demanda fuera la dada según la tabla 1.2 para
los cuatro tipos de botes, Ei, son los suficientemente grandes como para refutar la
hipótesis nula. Las diferencias son significativas y no pueden atribuirse simplemente
a un error de muestreo.

Prueba de Normalidad

Si nos encontramos frente a una cantidad grande de observaciones y


deseamos saber si estas se comportan de acuerdo a las reglas de la normalidad, es
decir que sus probabilidades pueden ser encontradas por medio de la Tabla del área
bajo la campana de Gauss o Curva Normal, entonces podemos utilizar la prueba Chi-
cuadrado para determinar el grado de ajuste con que esta distribución se acerca a la
distribución normal. Veamos el siguiente ejemplo:

Las especificaciones para la producción de tanques de aire utilizados en inmersión


requieren que los tanques se llenen a una presión promedio de 600 psi. Se permite una
desviación estándar de 10 psi. Las especificaciones de seguridad permiten una distribución
normal en los niveles de llenado. Deseamos determinar si los niveles de llenado se ajustan a
una distribución normal, o sea si cumplen con los requisitos establecidos, para hacerlo se
miden n = 1,000 tanques y se halla la distribución presentada en la tabla 1.3. Nuestras
hipótesis son:

HO: Los niveles de llenados están distribuidos normalmente.


HA: Los niveles de llenado no están distribuidos normalmente.
12

TABLA 1.3
PSI Frecuencia Real
0 y por debajo de 580 20
580 y por debajo de 590 142
590 y por debajo de 600 310
600 y por debajo de 610 370
610 y por debajo de 620 128
620 y por encima 30
Total 1,000

Igual que antes, la prueba requiere comparar estas observaciones reales con
las que esperaríamos encontrar si prevaleciera la normalidad. Para encontrar las
frecuencias esperadas debemos calcular las probabilidades de que los tanques
seleccionados aleatoriamente tengan los niveles de contenido en los intervalos
presentados en la tabla 1.3.

a) La probabilidad de que un tanque caiga en el primer intervalo P(0<X>%580). El


problema esta representado en la figura 1.3a. Debemos determinar el área
sombreada bajo la curva. Así:

X-µ
Z=---------
σ

-2 0
580 – 600
Z=------------ = -2 O UN AREA DE 0.4772 (a)
10

Entonces P(0<X< 580) = 0.5000-0.4772 = 0.0228 (1)

De la misma manera encontramos las demás probabilidades como sigue:

b) La probabilidad de (580<X<590)
13

X-µ
Z=---------
σ

-2 -1 0
590 - 600
Z=------------- = -1 O UN AREA DE 0.3413 (b)
10

Entonces:

P(580<X<590)=P(580) dado en (a) – P(590)=0.4772–0.3413=0.1359


(2)

c) La probabilidad de P(590<X<600)

Como la media es 600, Z = 0, entonces la probabilidad de P(0<X<590) es la misma


que (b). Entonces P(590<X<600) = 0.3413 (3)

-1 0
14

d) La probabilidad de P(600<X<610)

X-µ
Z=----------
σ

610 – 600 0 1
Z=--------------- = 1 O UN AREA DE 0.3413
10

Entonces como la media de nuevo es 600, Z=0, la probabilidad de P(600<X<610) es


la misma que (b). Entonces P(600<X<610) =0.3413(4)

e) La probabilidad de (610<X<620)

X-µ
Z=----------
σ

610 – 600 0 1 2
Z=------------ = 1 O UN AREA DE 0.1359
10

Dado que P(620) = P(580) y P(610) = P(590) por que están a la misma distancia de
la media z=0. Entonces por simetría podemos usar los mismos valores de z y las
mismas probabilidades dados en (2).
P(610<X<620) = P(X<610) – P(X<620) = 0.4772 – 0.1359 = 0.3413 (5)
15

f) La probabilidad de P(X>620)

X-µ
Z=----------
σ

620 – 600 0 2
Z=------------- = 2 O UN AREA DE 0.4772
10

Entonces P(0<X< 580) = 0.5000-0.4772 = 0.0228 (6)

Se desea probar la hipótesis al nivel del 5%. Debido a que tanto la media como la
desviación estándar son dadas y no tienen que estimarse, m=0. Existen k=6 clases,
de manera que los grados de libertad son k-0-1=5. El valor critico de χ 2
en χ 2
0.05,5

=11.07

Regla de decisión: “No rechazar si χ 2


< 11.07. Rechazar si χ 2>7.815

Completamos los datos en la tabla 1.4 con los resultados anteriores y calculamos los
valores esperados Ei = npi.
16

TABLA 1.4
PSI Frecuencia Probabilidades Frecuencia esperada
Real (pi) (Ei)
0 y por debajo de 580 20 0.0228 22.8
580 y por debajo de 590 142 0.1359 135.9
590 y por debajo de 600 310 0.3413 341.3
600 y por debajo de 610 370 0.3413 341.3
610 y por debajo de 620 128 0.1359 135.9
620 y por encima 30 0.0228 22.8
1000 1.000 1000

Utilizando la formula (1.1) se tiene que:

(20-22.8)2 (142-135.9)2 (310-341.3) 2 (370-341.3) 2 (128-135.9) 2 (40-22.8 ) 2


χ 2=---------- + ----------- + ------------ + ------------- + ----------- + ----------
22.8 135.9 341.3 341.3 135.9 22.8

χ 2
=8.63

De acuerdo a la regla de decisión la hipótesis no debe rechazarse. Las


diferencias entre lo esperado y lo que se observo con una media de 600 y una
desviación estándar de 10, a un nivel de 5%, pueden atribuirse a un error de

2
muestreo por debajo del nivel elegido, ya que el valor de χ es inferior con respecto
al valor maximo esperado para una muestra distribuida de acuerdo a la distribucion
normal.
17

Tablas de Contingencia

Cuando estamos ante una tabla en la que las frecuencias que observamos
ocupan una sola fila, entonces decimos que estamos ante una tabla de clasificación
de entrada única o tabla 1 x c (Se lee 1 por c).

SUCESO E1 E2 E3 .... EK
Frecuencia observada o1 o2 o3 ok
Frecuencia esperada e1 e2 e3 ek

Si queremos investigar el acuerdo que existe entre las frecuencias observadas


y las frecuencias esperadas debemos hacerlo calculando el estadístico (1.1)

k (Oi - Ei)²
χ ²= Σ ---------------
i=1 Ei

Como antes, el estadístico (1.1) tiene una distribución muestral dada. El numero
de grados de libertad, v, de esta distribución Chi-cuadrado viene dado por c>1 y k>1
por:

1. V = (f-1)(c-1) si las frecuencias esperadas se pueden calcular sin recurrir a


estimaciones muestrales de los parámetros de la población.

2. V = (f-1)(c-1)-m si las frecuencias esperadas solo se pueden calcular


mediante estimación de m parámetros de la población a partir de estadísticos
de la muestra.

Una hipótesis común es suponer que las dos clasificaciones son mutuamente
independientes.
18

Las tablas de contingencia se pueden usar para generalizarse a mas dimensiones


como veremos en el siguiente ejemplo:

Naydisita Cabral es la directora de investigación de productos en MercaSid. En


su proyecto actual la señorita Cabral debe determinar si existe alguna relación entre
la clasificación de efectividad que los consumidores asignan a un nuevo producto y la
ubicación (Urbano o Rural) en el cual se utiliza. De los 100 consumidores a los que se
le practico la encuesta, 75 vivían en zonas urbanas y 25 en zonas rurales, La tabla
1.4 resume las clasificaciones hechas por cada consumidor en una tabla de
contingencia. La tabla tiene f = 3 filas y c = 2 columnas, existen fc = 6 celdas en la
tabla. Vale la pena observar que 31 clientes clasificaron el producto por encima del
promedio, 20 de ellos estaban en zonas urbanas.

Atributo A - Clasificación Urbano Rural Total


Por encima del Promedio 20 11 31
Promedio 40 8 48
Por debajo del Promedio 15 6 21
Total 75 25 100

La señorita Cabral desea comparar el atributo B (Ubicación) con el atributo A


(Clasificación del producto). Sus hipótesis son:

HO: La clasificación y la ubicación son independientes


HA: La clasificación y la ubicación no son independientes

Si la ubicación no tiene ningún impacto en la clasificación de efectividad,


entonces el porcentaje de residentes urbano que clasificaron el producto “por encima
del producto” debería ser igual al porcentaje de residentes rurales que clasificaron el
producto “por encima del promedio”. Este porcentaje a su vez debería ser igual al de
todos los usuarios que calificaron el producto “por encima del promedio”.
19

Como muestra la tabla 1.5 el 31% de todos los usuarios clasificaron el


producto “por encima del promedio”. Luego el 31% de los 75 residentes urbanos y el
31 % de los 25 residentes rurales deberían dar esta clasificación si la clasificación y
la ubicación son independientes. Estos valores de (75)(0.31) = 23.3 y (25)(0.31) =
7.75 dan la frecuencia esperada para cada celda como podemos observar en la tabla
1.5. Los demás valores se calculan de la misma manera.

TABLA 1.5
Atribut
Atributo A - Clasificación Urbano
o Rural Total
Oi Ei Oi Ei
Por encima del Promedio 20 23.3 11 7.75 31
Promedio 40 36.0 8 12.0 48
Por debajo del Promedio 15 15.8 6 5.25 21
Total 75 25 100

La señorita Cabral hace la prueba de Chi-cuadrado utilizando la formula (1.1) y


encuentra que:

(20-23.3)2 (11-7.75)2 (40-36)2 (8-12)2 (15-15.8) 2 (6-5.25) 2


2
χ = --------- + ----------- + ---------- + -------- +------------ + ----------- = 3.76
23.3 7.75 36 12 15.8 5.25

La prueba tiene ν = (f-1)(c-1) = (3-1)(2-1) = 2 grados de libertad. Si la señorita


2
Cabral fija en 10% el grado de tolerancia entonces χ 0.10,2 = 4.605.

Regla de decisión: “No rechazar la hipótesis nula si χ 2<


4.605”

Por lo tanto la clasificación y la ubicación son independientes ya que χ 2<4.605.


20

CONCLUSION

Después de haber cumplido con los objetivos trazados al inicio de este trabajo,
podemos comprender mejor el alcance que tiene la prueba Chi-cuadrado en la
comparación de los resultados muestrales obtenidos y los esperados. La prueba por
su nombre indica erróneamente una complejidad que no tiene, ya que su desarrollo
es bastante sencillo. Esperamos poder hacer uso de esta herramienta estadística
para tomar mejores decisiones de negocios.
21

BIBLIOGRAFIA

♦ Spiegel, Murray R., Estadística, Méjico, 1991, 556 págs.

♦ Webster, Allen L., Estadística Aplicada a los Negocios y la Economía, Colombia,


2000, 640 págs.
22

ANEXOS
TABLA E – DISTRIBUCION NORMAL
23

TABLA H – DISTRIBUCION CHI-CUADRADO

También podría gustarte