Está en la página 1de 8

Estadística Inferencial

Pruebas Chi Cuadrado: Prueba de Independencia


y Prueba de Homogeneidad de Subpoblaciones

Prueba de Independencia

Estamos interesados en ver la relación existente entre dos variables categóricas de una misma población.
Las variables cualitativas o categóricas son aquellas variables cuyos valores son del tipo categórico; es
decir; que indican categorías o son etiquetadas numéricamente o con nombres. Son las que se refieren a
clasificaciones, como: estado civil, profesión, color de los ojos, preferencia por una marca, etc.

La pregunta que el investigador desea contestar podría ser

 ¿Existe relación entre “hacer deporte” y “depresión” en los jóvenes?


 ¿Existe relación entre “la gravedad de un accidente” y “género”
 ¿Existe relación entre “Motivo del préstamo” y “grupo de edad”?

Procedimiento
Cada individuo de la población en estudio se puede clasificar según dos criterios A y B. Suponga que la
primera variable permite clasificar a cada observación en una de r categorías y que la segunda variable
permite clasificar a cada observación en una de c categorías. A la tabla que muestra ambas variables y
las frecuencias observadas en cada una de las r ×c categorías resultantes se le conoce como tabla de
contingencia r ×c.

Variable Y
Total
Columna 1 Columna 2 ... Columna c
Fila 1 O 11 O 12 O1 c O1 •
Fila 2 O 21 O 22 O2 c O2 •
Variable . . . . .
X . . . . .
. . . . .
Fila r Or 1 Or 2 ... Orc Or •
Total O •1 O •2 ... O •c n

Esta prueba es especialmente útil cuando se trata de analizar la independencia entre dos variables en
escala nominal. Cuando las variables están en escala ordinal, intervalo o razón, existen otros
procedimientos más adecuados, como por ejemplo mediante el cálculo de coeficientes de correlación (en
un capítulo posterior se verá el caso del coeficiente de correlación de Pearson, útil para analizar
asociación lineal entre dos variables cuantitativas).
Para analizar si dos variables son independientes, los datos deben corresponder a una sola muestra.
La frecuencia esperada correspondiente en cada una de las rc celdas está dada por la expresión:

O i • × O • j total de fila i × total de columna j


Frecuencia esperada = e ij = =
n Gran total

Pasos para realizar la Prueba de Independencia


1) Planteamiento de la Hipótesis
Ho: X e Y son independientes (X e Y no están relacionadas)
H1 : X e Y no son independientes (X e Y están relacionadas)

2) Nivel de significación: α

3) Estadístico de prueba:
k
2
χ =∑ ¿ ¿ ¿
cal con ν=(r−1)(c−1) grados de libertad
i=1

k
χ 2cal =∑ ¿ ¿ ¿
i=1

4) Regiones críticas

5) Decisión
Criterio:
Si χ 2cal > χ 2crí tico se rechaza la Ho
Si χ 2cal ≤ χ 2Crí tico no se rechaza la Ho

6) Conclusión
Se derivan de la decisión estadística y de las variables especificas concerniente al problema que se
encuentra en evaluación.

Ejemplo 1:

El jefe del área de riesgo crediticio implementará una nueva política de gestión de riesgos, si se comprueba
que existe relación entre el motivo de préstamo y la condición laboral. Para esta evaluación, el analista
financiero ha seleccionado aleatoriamente una muestra de 200 clientes del Banco Estrella. Utilizando un
nivel de significación del 5%, y en base a los resultados del analista financiero ¿qué decisión deberá tomar el
jefe del área de riesgo crediticio?
  Condición laboral
Motivo del
Dependiente Independiente Total
préstamo
Vehicular 42 21 63
Hipotecario 33 34 67
Personal 40 30 70
Total 115 85 200

Solución:
Interpretación:
Representación:
Variables:
X1:
X2:
Herramienta estadística:

Planteamiento de la Hipótesis
Ho:
H1 :

Nivel de significación:  = 0,05


Cálculo:

Estadístico de prueba
k
χ 2cal =∑ ¿ ¿ ¿ con ν=¿ grados de libertad
i=1

  Condición laboral
Motivo del
Dependiente Independiente Total
préstamo
Vehicular 42 ( ) 21 ( ) 63
Hipotecario 33 ( ) 34 ( ) 67
Personal 40 ( ) 30 ( ) 70
Total 115 85 200

k
χ 2cal =∑ ¿ ¿ ¿
i=1

Análisis:
Regiones críticas:

Decisión:
Conclusión:
Argumentación / Comunicación:

Ejercicio resuelto.

El gerente de la Empresa JHK, para determinar si existe una relación entre la calificación de un empleado en
el programa de capacitación y su rendimiento real en el trabajo, tomó una muestra de 400 casos de los
archivos y se obtuvo las frecuencias observadas que se presentan en la siguiente tabla de contingencia 3×3.

Rendimiento Calificación en el programa de Total


real en el capacitación
trabajo Debajo Sobre el
(calificación del del Promedio promedio
empleador) promedio
Deficiente 23 60 29 112
Promedio 28 79 60 167
Muy bueno 9 49 63 121
Total 60 188 152 400
Solo si la calificación del rendimiento del trabajador está relacionada con la calificación en el programa de
capacitación, el gerente de la empresa JHK decidirá crear un área de capacitación para los empleados
nuevos.
Con el nivel de significación 0,01, ¿qué decidirá el gerente?

Solución:

Interpretación:

Determinar si el gerente de la empresa JHK creará un área de capacitación para los empleados nuevos.

Representación:
Variables:
X1: Calificación del rendimiento real en el trabajo, con tres categorías: Deficiente, promedio y muy
bueno.
X2: Calificación en el programa de entrenamiento, con tres categorías: Debajo del promedio, promedio o
sobre el promedio.
Herramienta estadística: Prueba Chi Cuadrado de Independencia

Planteamiento de la Hipótesis
H0: La calificación del rendimiento real de un empleado en el trabajo no está relacionado (es
independiente) con la calificación en el programa de capacitación.
H1: La calificación del rendimiento real de un empleado en el trabajo está relacionado (no es
independiente) con la calificación en el programa de capacitación.

Nivel de significación:  = 0,01

Cálculo:
Estadístico de prueba
k
χ 2cal =∑ ¿ ¿ ¿ con ν=(3−1)(3−1)=4 g. l.
i=1

Rendimiento real en Calificación en el programa de


el trabajo capacitación
Total
(calificación del Debajo del Promedi Sobre el
empleador) promedio o promedio
Deficiente 60
23 (16,80) 29 (42,56) 112
(52,64)
Promedio 79
28 (25,05) 60 (63,46) 167
(78,49)
Muy bueno 49
9 (18,15) 63 (45,98) 121
(56,87)
Total 60 188 152 400

χ 2Cal =¿ ¿

Análisis:
Regiones críticas:

Decisión: Rechazar la hipótesis nula.


Conclusión: Con nivel de significación 0,01, hay evidencia estadística suficiente para afirmar que la
calificación del rendimiento real de un empleado en el trabajo está relacionada con la calificación en el
programa de entrenamiento.

Argumentación / Comunicación:

El gerente de la empresa JHK creará un área de capacitación para los empleados nuevos, ya que se
encontró que la calificación del rendimiento real de un empleado en el trabajo está relacionada con la
calificación en el programa de entrenamiento.
.

Prueba de Homogeneidad de Subpoblaciones

Esta prueba permite analizar si la distribución de probabilidades de una variable categórica es la misma
en r poblaciones, es decir se busca determinar si dos o más muestras independientes provienen de una
misma población.
Como en el método anterior, para esta prueba los datos muestrales se registran en r ×c celdas de una
tabla de doble entrada de orden r ×c.

La hipótesis nula y alternativa son respectivamente:

Ho: Las k poblaciones son homogéneas (similares) con respecto a la variable categórica.
(La distribución de los sujetos de la población (variable categórica) es homogénea en las k
subpoblaciones)
H1: Las k poblaciones no son homogéneas con respecto a la variable categórica.
(La distribución de los sujetos de la población (variable categórica) no es homogénea en las k
subpoblaciones)

El proceso de esta prueba de hipótesis es el mismo de la prueba de independencia.

Ejemplo 2:

El jefe de riesgo crediticio implementará un mismo control integral de riesgo, si se comprueba que la
distribución de la condición laboral de los clientes es similar para las tres sucursales. Para analizar este
objetivo, el analista ha tomado una muestra aleatoria de cada sucursal, tal como se muestra en la
siguiente tabla:

Condición Sucursal
laboral Monterrico La Molina Santiago de Surco
Dependiente 25 20 20
Independiente 55 40 40
Total (ni) 80 60 60

Utilizando un nivel de significación del 5%, y en base a los resultados del analista financiero ¿qué
decisión deberá tomar el jefe del área de riesgo crediticio?
Interpretación:

Representación:
Variable: X:
(Ojo: en este caso solo hay una variable y dos o más muestras de subpoblaciones)
Herramienta estadística:
Planteamiento de la Hipótesis
H0:
H1:
Nivel de significación:  =

Cálculo:
Estadístico de prueba
k
2
χ =∑ ¿ ¿ ¿ con
cal ν=¿
i=1

(Usando
Condición Sucursal
laboral Monterrico La Molina Santiago de Surco Total
Dependiente 25 ( ) 20 ( ) 20 ( )
Independiente 55 ( ) 40 ( ) 40 ( )
Total (ni) 80 60 60 200
k
χ 2cal =∑ ¿ ¿ ¿
i=1

Análisis:
Regiones críticas:

Decisión:
Conclusión:

Argumentación / Comunicación:

Ejercicio resuelto.

En un estudio reciente, al personal de ventas de una compañía de computación se le preguntó si sus


ventas se verían acrecentadas por una reducción en el precio de las computadoras o por una mejora en la
calidad del servicio que se ofrece a los usuarios. Se tomaron muestras al azar de vendedores de cada uno
de los tres territorios de ventas, con los siguientes resultados:
Motivos Norte Sur Este Total
Menor precio 41 27 22 90
Mejor servicio 79 53 78 210
Total 120 80 100 300

Solo si se logra probar que hay homogeneidad en las tres áreas geográficas con respecto a la opinión de
los vendedores sobre los motivos del crecimiento de sus ventas, se creará una oficina de marketing en la
sede central de la compañía. Use un nivel de significación de 0,05.
Interpretación:
Determinar si se creará una oficina de marketing en la sede central de la compañía.

Representación:
X: Motivo de crecimiento de las ventas .
(Ojo: en este caso solo hay una variable y muestras de subpoblaciones)

Herramienta estadística: Prueba Chi Cuadrado de Homogeneidad de Subpoblaciones.

Planteamiento de la Hipótesis
H0: Hay homogeneidad en las tres áreas geográficas con respecto a la opinión de los vendedores sobre
los motivos del crecimiento de sus ventas.
H1: No hay homogeneidad en las tres áreas geográficas con respecto a la opinión de los vendedores sobre
los motivos del crecimiento de sus ventas.

Nivel de significación:  = 0,05

Cálculo:
Estadístico de prueba
k
χ 2cal =∑ ¿ ¿ ¿ con ν=(2−1)(3−1)=2 g . l
i=1

Material Material
  A Material B C Total
Desintegrados 41 (36) 27 (24) 22 (30) 90
Permanecieron intactos 79 (84) 53 (56) 78 (70) 210
Total 120 80 100 300

χ 2Cal =¿ ¿

Análisis:
Regiones críticas:

Decisión: No se rechaza la hipótesis nula.


Conclusión: Con nivel de significación de 0,05, no se puede afirmar que no que hay homogeneidad en
las tres áreas geográficas con respecto a la opinión de los vendedores sobre los motivos del crecimiento
de sus ventas. Por lo tanto, se asume que hay homogeneidad en las tres áreas geográficas con respecto a
la opinión de los vendedores sobre los motivos del crecimiento de sus ventas.

Argumentación / Comunicación:
Se creará una oficina de marketing en la sede central de la compañía, ya que se concluye que hay
homogeneidad en las tres áreas geográficas con respecto a la opinión de los vendedores sobre los motivos
del crecimiento de sus ventas.

También podría gustarte