Está en la página 1de 13

UNIVERSIDAD AUTÓNOMA DE SANTO DOMINGO

Facultad de Ciencias Económicas y Sociales


Escuela de Estadística

ESTADÍSTICA INFERENCIAL PSI.

(EST-2280)

Prof. Melvin Avilés Quezada


CONTENIDO:

✓ Capítulo 1. Introducción a la teoría de probabilidad.

✓ Capítulo 2. Distribuciones probabilísticas discretas.

✓ Capítulo 3. Distribuciones probabilísticas continuas.

✓ Capítulo 4. Distribuciones muestrales y la estimación.

✓ Capítulo 5. Pruebas de hipótesis.

✓ Capítulo 6. Análisis de datos de nivel nominal.

✓ Bibliografía y Anexos.
Capítulo VI. Análisis de datos de nivel nominal.

DISTRIBUCIÓN CHI-CUADRADA (JI-CUADRADA DE PEARSON).


Numerosos experimentos resultan en mediciones que son cualitativas o categóricas
en lugar de cuantitativas; esto es, una cualidad o característica se mide para cada
unidad experimental. Se puede resumir este tipo de datos al crear una lista de las
categorías e informar sobre la cantidad de mediciones que caen en cada categoría
(frecuencia). En este caso, es posible llevar a cabo una prueba de hipótesis
utilizando el estadístico chi-cuadrado de Pearson.

La distribución chi-cuadrada es una distribución de probabilidad. En consecuencia,


el área total bajo la curva de cada distribución chi-cuadrada es igual a uno. Esta es
asimétrica derecha, por tanto, las pruebas chi-cuadradas son siempre de cola
derecha. Los valores de la chi-cuadrada pueden ser cero o positivos, pero no pueden
ser negativos. Al igual que la distribución t, existe una distribución chi-cuadrada
diferente para cada número de grados de libertad. Para un número muy pequeño de
grados de libertad, la distribución chi-cuadrada está seriamente sesgada a la
derecha. Sin embargo, a medida que aumenta el número de grados de libertad, la
distribución comienza a aproximarse a la distribución normal. Esto implica que la forma
de esta distribución no depende del tamaño de la muestra, sino del número de categorías.
Capítulo VI. Análisis de datos de nivel nominal.

En las pruebas de hipótesis basadas en el uso de la distribución chi-cuadrada. se


comparan los resultados muestrales con los resultados esperados cuando la
hipótesis nula es verdadera. La conclusión de la prueba de hipótesis se basa en qué
tan “cerca” se encuentran los resultados muestrales de los esperados. Si las
frecuencias observadas se acercan a las frecuencias esperadas correspondientes, el
valor χ2 será pequeño, lo cual indica un buen ajuste. Si las frecuencias observadas
difieren de manera considerable de las frecuencias esperadas, el valor χ2 será
grande y el ajuste será deficiente. La frecuencia esperada para una categoría, es la
frecuencia que ocurriría si los datos realmente tuvieran la distribución que se afirma.
Un buen ajuste conduce a la aceptación de Ho, mientras que un ajuste deficiente
conduce a su rechazo. Como la región crítica caerá siempre en la cola derecha, se
rechaza Ho si el 𝜒 2 𝑐𝑎𝑙𝑐𝑢𝑙𝑎𝑑𝑜 > 𝜒𝛼2 (𝑡𝑒𝑜𝑟𝑖𝑐𝑜).

Al obtener valores críticos de χ2 utilizando la tabla de la distribución, si no se


encuentra un número de grados de libertad específico, usted puede ser conservador
usando el siguiente número menor de grados de libertad o bien puede obtener un
resultado aproximado mediante interpolación. La tabla de la distribución chi-
cuadrada utiliza áreas acumuladas desde la derecha.
Capítulo VI. Análisis de datos de nivel nominal.

Limitaciones de la prueba chi-cuadrada.


Para utilizar una prueba de hipótesis chi-cuadrada, debemos tener un tamaño de
muestra lo suficientemente grande para garantizar la similitud entre la distribución
teórica correcta y nuestra distribución de muestreo del estadístico χ2. Cuando las
frecuencias esperadas son muy pequeñas, el valor de χ2 estará sobrestimado y se
tendrá como resultado, que la hipótesis nula se rechace demasiado.

De manera general, para evitar incurrir en inferencias incorrectas al utilizar la prueba


de hipótesis chi-cuadrada, se deben cumplir los siguientes requisitos:
1) Los datos han sido seleccionados aleatoriamente,
2) Los datos muestrales consisten en conteos de frecuencias para cada una de las
diferentes categorías.
3) Para cada categoría, la frecuencia esperada debe ser de por lo menos 5.

Esta ultima restricción podría requerir la combinación de celdas adyacentes, lo que


dará como resultado una reducción en el número de grados de libertad, producto de
la reducción del número de categorías de los datos. Es importante destacar que no
se requiere que la frecuencia observada para cada categoría sea de al menos 5.
Capítulo VI. Análisis de datos de nivel nominal.

Prueba de bondad de ajuste de chi-cuadrada.


La prueba de bondad de ajuste es una de las pruebas estadísticas de uso más
común. Es particularmente útil porque requiere sólo un nivel de medición nominal.
Por ello, es posible llevar a cabo una prueba de hipótesis con datos que han sido
clasificados en grupos. Como su nombre lo indica, una prueba de bondad de ajuste
se usa para probar la hipótesis de que una distribución de frecuencia observada (fo)
se ajusta a (o concuerda con) alguna distribución afirmada. El estadístico de prueba
para este tipo de prueba es: 𝑓 − 𝑓 2
𝑜 𝑒
𝜒2 = ෍ ; 𝑐𝑜𝑛 𝑘 − 1 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑.
𝑓𝑒

Las hipótesis son:


Ho: Los conteos de frecuencias concuerdan con la distribución afirmada.
Ha: Los conteos de frecuencias no concuerdan con la distribución afirmada.

Hay dos métodos para determinar las frecuencias esperadas fe:


• Si las frecuencias esperadas son todas iguales, fe = n / k, donde k = número de categorías.
• Si las frecuencias esperadas no son todas iguales, fe = n * p para cada categoría individual.
Capítulo VI. Análisis de datos de nivel nominal.

Prueba de bondad de ajuste de chi-cuadrada: frecuencias esperadas iguales.


Ejemplo: Bubba’s Fish and Pasta es una cadena de restaurantes ubicados a lo largo de la costa del Golfo de
Florida. Bubba, el propietario, desea añadir filete a su menú. Antes de hacerlo, decide contratar a Magno
Research, LLC, para que lleve a cabo una encuesta entre personas adultas, para saber cuál es su platillo
favorito cuando comen fuera de casa. Magnolia seleccionó una muestra de 120 adultos y les pidió que
indicaran su comida favorita cuando salen a cenar. Los resultados se reportan en la siguiente tabla. ¿Es
razonable concluir que no hay preferencia entre los cuatro platillos?, use un α = 0.05
Ho: no hay diferencia entre las proporciones de adultos que eligen cada platillo.
Ha: existe diferencia entre las proporciones de adultos que eligen cada platillo.
𝟐
Plato
fo fe (fo - fe) − 𝟐 − fe = n/k = 120 / 4 = 30
favorito 2
𝑓𝑜 − 𝑓𝑒
Pollo 32 30 2 4 0.133 𝝌𝟐 =෍ = 𝟐. 𝟐
𝑓𝑒
Pescado 24 30 -6 36 1.200
gl = k – 1 = 4 – 1 = 3
Carne 35 30 5 25 0.833
Pasta 29 30 -1 1 0.033 Regla de rechazo: se rechaza Ho si
2 2
Total 120 120 0 - 𝝌𝟐 = 2.200 𝜒 > (𝜒 0.05;3𝑔𝑙 = 7.815)
Decisión: como χ2 (2.2) es menor que 7.815, no se rechaza Ho a un α=0.05 y se concluye que las diferencias entre las
frecuencias observada y esperada podrían deberse al azar. Esto significa que no hay preferencia entre los cuatro platillos.
Capítulo VI. Análisis de datos de nivel nominal.

Prueba de bondad de ajuste de chi-cuadrada: frecuencias esperadas desiguales.


Ejemplo: considere el estudio sobre participación de mercado que realizó la firma Scott Marketing Research. A
lo largo de los años, las participaciones en el mercado se han estabilizado en 30% para la empresa A (pA), 50%
para la B (pB) y 20% para la C (pC). Hace poco, la empresa C desarrolló un producto nuevo y mejorado, para
sustituir uno de los que tenía en circulación, y pidió a la firma Scott Marketing Research que determinará si el
nuevo producto modificaría su participación de mercado. Para este estudio la firma de investigación ha
empleado un panel de 200 consumidores. A cada individuo se le pide que indique su preferencia entre el
producto de la empresa A, el de la empresa B o el nuevo producto de la empresa C. Las 200 respuestas
obtenidas se presentan a continuación en forma resumida. Use un α = 0.05 para establecer su conclusión.
𝜒 20.05;2𝑔𝑙 = 5.991
Ho: pA = 0.30; pB = 0.50, y pC = 0.20
Ha: las proporciones poblacionales no son pA = 0.30; pB = 0.50, Y pC = 0.20
𝟐
Proporcion 𝟐 −
Categoría fo
hipotética
fe (fo - fe) − fe = n * p
Empresa A 48 0.30 60 -12 144 2.40 𝝌𝟐 = 7.34 ; gl = k – 1 = 3 – 1 = 2
Empresa B 98 0.50 100 -2 4 0.04
Regla de rechazo: se rechaza Ho si
Empresa C 54 0.20 40 14 196 4.90 2
𝝌 𝟐= 𝜒 > (𝜒 20.05;2𝑔𝑙 = 5.991)
Total 200 1.00 200 0 - 7.34
Decisión: como χ2 (7.34) es mayor que 5.991, se rechaza Ho a un α=0.05 y se concluye que la introducción del nuevo
producto de la empresa C sí modificará la estructura de participación de mercado actual, teniendo un efecto positivo.
Capítulo VI. Análisis de datos de nivel nominal.

Análisis de tablas de contingencia.


Una tabla de contingencia (o tabla de frecuencias bidireccional) es una tabla que
consiste en conteos de frecuencias de datos categóricos, correspondientes a dos
variables diferentes (una variable se usa para categorizar las filas y una segunda
variable se usa para categorizar las columnas). Usamos el término tabla de
contingencia porque probamos la independencia entre las variables de fila y de
columna. En otras palabras, en una prueba de independencia probamos la hipótesis
nula de que en una tabla de contingencia, las variables de fila y de columna son
independientes (es decir, que no hay dependencia entre las variables de fila y de
columna), mientras que la hipótesis alternativa establece que las variables de fila y
de columna son dependientes.

Requisitos de la prueba de independencia son:


1) Los datos muestrales se seleccionan al azar,
2) Los datos muestrales se representan como conteos de frecuencias en una tabla
bidireccional..
3) Para cada celda en la tabla de contingencia, la frecuencia esperada (fe) es al
menos 5. (No es necesario que cada frecuencia observada sea al menos 5).
Capítulo VI. Análisis de datos de nivel nominal.

El estadístico de prueba para una prueba de independencia es:


− 𝟐
𝟐 𝒈𝒍 = 𝑭𝒊𝒍𝒂𝒔 − 𝟏 (𝑪 𝒍𝒖𝒎𝒏𝒂𝒔 − 𝟏)
𝝌 =෍

La formula para determinar las frecuencias esperadas (fe) es


𝑻 𝒕𝒂𝒍 𝒅 𝒍𝒂 𝒊𝒍𝒂𝒔 𝒊 (𝑻 𝒕𝒂𝒍 𝒅 𝒍𝒂 𝒄 𝒍𝒖𝒎𝒏𝒂𝒔 𝒋)
𝒊𝒋 =
𝑮𝒓𝒂𝒏 𝒕 𝒕𝒂𝒍 𝒕𝒂𝒎𝒂ñ 𝒅 𝒍𝒂 𝒎𝒖 𝒔𝒕𝒓𝒂

Las pruebas de independencia con una tabla de contingencia son siempre de cola
derecha. El estadístico de prueba nos permite medir el tamaño de la discrepancia
entre las frecuencias realmente observadas y aquellas que teóricamente
esperaríamos cuando las dos variables son independientes.

En caso de que una celda de la tabla de contingencia tenga una frecuencia esperada
menor que 5, entonces se deberá utilizar la prueba exacta de Fisher, nunca la
prueba de independencia que acabamos de describir.
Capítulo VI. Análisis de datos de nivel nominal.

Prueba de independencia chi-cuadrada.


Ejemplo: La empresa Alber’s Brewery, de Tucson, Arizona, produce y distribuye tres tipos de cerveza: ligera,
clara y oscura. Al analizar los segmentos de mercado de las tres bebidas, el grupo de investigación de
mercados se preguntó si la inclinación de los consumidores por estos tipos de cerveza difería entre hombres y
mujeres. Se utilizará una prueba de independencia para determinar si la preferencia por un tipo de cerveza
(ligera, clara u oscura) era independiente del género del consumidor (hombre o mujer), para lo cual se toma
una muestra aleatoria simple de 150 consumidores y cada individuo de la muestra prueba los tres tipos de
cerveza, y después se le pide que indique cuál prefiere o cuál es su primera elección. Los datos se presentan a
continuación. Use un α = 0.05 para establecer su conclusión.
Ho: la preferencia por un tipo de cerveza es independiente del género del consumidor.
Ha: la preferencia por un tipo de cerveza no es independiente del género del consumidor.
Tabla de contingencia de cerveza preferida y género del consumidor. 𝜒 20.05;2𝑔𝑙 = 5.991

Cerveza preferida Regla de rechazo: se


Genero Total rechaza Ho si 𝜒 2 >
Ligera Clara Oscura
Hombre 20 40 20 80 (𝜒 20.05;2𝑔𝑙 = 5.991)
Mujer 30 30 10 70 𝒈𝒍 = 𝑭𝒊𝒍𝒂𝒔 − 𝟏 𝑪 𝒍𝒖𝒎𝒏𝒂𝒔 − 𝟏
Total 50 70 30 150 𝒈𝒍 = 𝟐 − 𝟏 𝟑 − 𝟏 = 𝟏 ∗ 𝟐 = 𝟐
Capítulo VI. Análisis de datos de nivel nominal.

Cerveza preferida Nota: el valor-p está entre 0.05 y 0.025, porque


Genero Total elχ2 de 6.127 se busca en la fila de 2 gl y se
Ligera Clara Oscura
encuentra entre 5.991 y 7.378; por este método
Hombre 20 (26.67) 40 (37.33) 20 (16) 80 también se rechazaría Ho porque el valor p <α.
Mujer 30 (23.33) 30 (32.67) 10 (14) 70 Totaldelafilasi (Totaldelacolumnasj)
Total 50 70 30 150 feij =
Grantotalotamañodelamuestra
80 (50) 80 (70) 80 (30)
𝑓𝑒11 = = 26.67 𝑓𝑒12 = = 37.33 𝑓𝑒13 = = 16
150 150 150
70 (50) 70 (70) 70 (30)
𝑓𝑒21 = = 23.33 𝑓𝑒22 = = 32.67 𝑓𝑒23 = = 14
150 150 150

2 fo −fe 2 20−26.67 2 30−23.33 2 40−37.33 2 30−32.67 2


χ =෍ = + + + +
fe 26.67 23.33 37.33 32.67

20−16 2 10−14 2
+ = 1.668 + 1.907 + 0.191 + 0.218 + 1 + 1.143 = 𝟔. 𝟏𝟐𝟕
16 14
Decisión: como χ2 (6.127) es mayor que 5.991, se rechaza Ho a un α=0.05 y se concluye que la
preferencia por un tipo de cerveza no es independiente del género del consumidor.
BIBLIOGRAFÍA
✓ Anderson, D., Sweeney, D., y Williams, T. (2012). Estadística para negocios y
economía. 11 ed. México D.F. México.
✓ Levin, R. y Rubin, D. (2010). Estadística para Administración y Economía. 7ed. Ciudad
de México, México.
✓ Lind, D., Marchal, W., y Wathen, S. (2012). Estadística Aplicada a los Negocios y la
Economía. 15 ed. Ciudad de México, México.
✓ Mendenhall, W., Beaver, R., y Beaver, B. (2010). Introducción a la Probabilidad y
Estadística. 13 ed. Ciudad de México, México.
✓ Triola, M. (2018). Estadística. 12 ed. Ciudad de México, México.
✓ Walpole, R., Myers, R., Myers, S., y Ye, K. (2012). Probabilidad y estadística
para ingeniería y ciencias. 9 ed. Naucalpan de Juárez, México.

También podría gustarte