Está en la página 1de 12

SESIN 13

PRUEBA DE INDEPENDENCIA DE VARIABLES


Oficina Acadmica de Investigacin Coordinacin de Mtodos Estadsticos

13. PRUEBA DE HIPTESIS PARA LA INDEPENDENCIA DE VARIABLES CUALITATIVAS EN UNA TABLA


DE CONTINGENCIA. DISTRIBUCIN CHI-CUADRADO.

13.1. TABLAS DE CONTINGENCIA

En los diferentes campos de la investigacin es muy frecuente encontrarse con variables


cualitativas nominales u ordinales: nivel de instruccin, sexo, calificacin de un servicio,
lugar de procedencia, categora laboral, etc. Las tablas de contingencia resuelven el
problema del estudio de la asociacin existente entre dos variables de tipo cualitativo. O
tambin si la proporcin de casos para cada categora de una de las variables es
independiente del valor que toma la otra variable.

Desde el punto de vista inferencial la hiptesis nula tratara la independencia de stas


variables.
(Hiptesis nula) H0: Las variables son independientes.
(Hiptesis alternativa) H1: Las variables no son independientes.

Existen ocasiones en que el inters es determinar las diferencias en la frecuencia de sucesos,


como por ejemplo: dada una muestra de 140 estudiantes de distintas escuelas, la
investigacin podra consistir en determinar si hay o no asociacin entre la nota que el
alumno obtuvo en estadstica (alta, media o baja) y la que este obtuvo en matemticas (alta,
media o baja). Lo que se busca es determinar si existe una asociacin (contingencia o
correlacin) entre los dos factores de inters.

NOTA EN EL CURSO NOTA EN EL CURSO DE ESTADISTICA


DE MATEMATICAS Alta Media Baja
Total
(columna 1) (columna 2) (columna 3)
Alta
13 19 11 53
(fila 1)
Media
18 12 8 38
(fila 2)
Baja 30
9 20 59
(fila 3) (celda 3;2)
Total 40 61 39 140

El cruce entre filas (i) y columnas (j) de una tabla cruzada o de doble entrada constituyen las
celdas, las cuales contienen informacin referente a las variables consideradas en la tabla, y
pueden constituirlas frecuencias o porcentajes.

El razonamiento para contrastar si existe o no asociacin entre dos variables cualitativas se


basa en calcular cul seran los valores de frecuencia esperados para cada una de las celdas
en el caso de que efectivamente las variables fuesen independientes, y compararlos con los
valores realmente observados. Si no existe mucha diferencia entre ambos, no hay razones
para dudar de que las variables sean independientes.

El contraste estadstico ms utilizado para evaluar si las diferencias entre las frecuencias
observadas y las esperadas pueden atribuirse al azar, bajo la hiptesis de independencia, es
2
el denominado Chi-cuadrado de Pearson (X ):

I J (Oij Eij )2
=
2

i j Eij

Manual de Estadstica Pgina182


Oficina Acadmica de Investigacin Coordinacin de Mtodos Estadsticos

I: representa el nmero de filas


J: representa el nmero de columnas
i: representa la posicin de la fila
j: representa la posicin de la columna
Eij : representa la frecuencia esperada para la celda situada en la fila i columna j.
Oij : representa la frecuencia efectivamente observada para esa celda.

til para la conclusin:


Si el estadstico de prueba X calculado de acuerdo a los datos es mayor que el valor de la X
de la tabla:
(2calculada) > (2tabla)
Entonces rechazaremos la hiptesis nula y concluimos que ambas variables son
dependientes o estn relacionadas. De lo contrario estas seran independientes, es decir no
estn relacionadas.
Realicemos un ejemplo para poder aplicar:
Se realiza un estudio para investigar la asociacin entre la recuperacin de una enfermedad
y el uso de vitaminas. Se seleccionan 100 pacientes aleatoriamente y se recogen los datos
que se muestran en la tabla adjunta:
Tabla N 1 Distribucin de pacientes segn uso de vitaminas y recuperacin de una
enfermedad - Hospital Dos de Mayo- Lima -2010.
(Frecuencias observadas)
Recuperacin de la enfermedad
Uso de
No se
Vitaminas Se recupera Total
recupera
Si 36 34 70

No 24 6 30
Total 60 40 100

Solucin:
Primero: planteamos nuestras hiptesis de acuerdo al enunciado.
H0: La recuperacin de una enfermedad y el uso de vitaminas son independientes.
H1: La recuperacin de una enfermedad y el uso de vitaminas son dependientes.
Segundo: calculamos las frecuencias esperadas

Recuperacin de la enfermedad
Uso de
No se Total
vitaminas Se recupera
recupera
Si O11=36 O12=34 70
No O21=24 O22=6 30
Total 60 40 100

70 * 60
E11 = = 42
100
De acuerdo a la tabla N 1 se calcula la probabilidad de que un paciente use vitaminas se
puede estimar en la muestra como 70/100.

Manual de Estadstica Pgina183


Oficina Acadmica de Investigacin Coordinacin de Mtodos Estadsticos

Ahora se esperara que de este 70% de la poblacin de pacientes que toma vitaminas sean
los que se recuperen de la enfermedad:

70 70*60
*60 = (42 pacientes) = (42 pacientes)
100 O de forma directa 100

y el 70% de la poblacin de pacientes que no se recupera de la enfermedad (40 pacientes)


usara vitaminas.
70*40
70
* 40 = (28 pacientes) = (28 pacientes)
100 O de forma directa 100

Se repite el mismo procedimiento para los que no usan vitaminas.


Por ltimo completar la tabla:
Tabla N 2 Distribucin de frecuencias esperadas
Recuperacin de la enfermedad
Uso de Se No se
Total
vitaminas recupera recupera
Si E11=42 E12=28 70
No E21= E22= 30
Total 60 40 100

Tercero: calculamos el estadstico de prueba, para la cual usaremos las frecuencias


observadas (nuestros datos reales tabla 1) y las frecuencias esperadas (la nueva tabla 2):
Usando la formula del contraste estadstico de la X :

(O11 E11 ) 2 (O12 E12 ) 2 (O21 E 21 ) 2 (O22 E 22 ) 2


2 ( calculada ) = + + +
E11 E12 E 21 E 22

(36 42) 2 (34 28) 2 (24 18) 2 (6 12) 2


2 = + + + 7.143
42 28 18 12

Cuarto: observamos la cantidad de filas y columnas en nuestra tabla (2 filas y 2 columnas),


2
luego buscamos en la tabla el valor de la X segn sus grados de libertad que se halla as:

(i-1)*(j-1), para este caso corresponde con:


(2-1)*(2-1)= 1 grados de libertad.

Para una significancia = 0.05. Encontramos que esta es aproximadamente 3.84

Quinto: Comparamos los valores de la X , en este caso result:

X (calculado) =7.143 > X (tabla)=3.84, por lo tanto rechazamos la hiptesis nula y concluimos
que a un nivel de significancia del 5%, existe asociacin entre las variables analizadas, es
decir que la recuperacin de la enfermedad depende del uso de vitaminas.

Manual de Estadstica Pgina184


Oficina Acadmica de Investigacin Coordinacin de Mtodos Estadsticos

TABLA CHICUADRADO
Probabilidad de un valor superior - Alfa ()
Grados de libertad 0,1 0,05 0,025 0,01 0,005
1 2,71 3,84 5,02 6,63 7,88
2 4,61 5,99 7,38 9,21 10,60
3 6,25 7,81 9,35 11,34 12,84
4 7,78 9,49 11,14 13,28 14,86
5 9,24 11,07 12,83 15,09 16,75
6 10,64 12,59 14,45 16,81 18,55
7 12,02 14,07 16,01 18,48 20,28
8 13,36 15,51 17,53 20,09 21,95
9 14,68 16,92 19,02 21,67 23,59
10 15,99 18,31 20,48 23,21 25,19
11 17,28 19,68 21,92 24,73 26,76
12 18,55 21,03 23,34 26,22 28,30
13 19,81 22,36 24,74 27,69 29,82
14 21,06 23,68 26,12 29,14 31,32
15 22,31 25,00 27,49 30,58 32,80
16 23,54 26,30 28,85 32,00 34,27
17 24,77 27,59 30,19 33,41 35,72
18 25,99 28,87 31,53 34,81 37,16
19 27,20 30,14 32,85 36,19 38,58
20 28,41 31,41 34,17 37,57 40,00
21 29,62 32,67 35,48 38,93 41,40
22 30,81 33,92 36,78 40,29 42,80
23 32,01 35,17 38,08 41,64 44,18
24 33,20 36,42 39,36 42,98 45,56
25 34,38 37,65 40,65 44,31 46,93
26 35,56 38,89 41,92 45,64 48,29
27 36,74 40,11 43,19 46,96 49,65
28 37,92 41,34 44,46 48,28 50,99
29 39,09 42,56 45,72 49,59 52,34
30 40,26 43,77 46,98 50,89 53,67
40 51,81 55,76 59,34 63,69 66,77
50 63,17 67,50 71,42 76,15 79,49
60 74,40 79,08 83,30 88,38 91,95
70 85,53 90,53 95,02 100,43 104,21
80 96,58 101,88 106,63 112,33 116,32
90 107,57 113,15 118,14 124,12 128,30
100 118,50 124,34 129,56 135,81 140,17

13.2. APLICACIN CON SPSS:

Para la aplicacin de esta prueba con el software estadstico SPSS usaremos la siguiente
base de datos, para una significancia = 0.05 , verificar la asociacin entre las variables
nivel socioeconmico y defecto del lenguaje:

Nivel Defecto del Nivel Defecto del


N Socioeconmico Lenguaje N Socioeconmico Lenguaje
1 Alto Presente 9 Medio Ausente
2 Medio Ausente 10 Medio Ausente
3 Alto Presente 11 Bajo Presente
4 Bajo Ausente 12 Bajo Presente
5 Medio Presente 13 Bajo Presente
6 Bajo Presente 14 Bajo Presente
7 Bajo Ausente 15 Bajo Presente
8 Bajo Presente 16 Bajo Ausente
Ingresamos los datos al SPSS y seguimos los siguientes pasos:

Manual de Estadstica Pgina185


Oficina Acadmica de Investigacin Coordinacin de Mtodos Estadsticos

Ingresamos las variables segn sea la necesidad en fila o columna, luego entramos a la
opcin Estadsticos, activamos Chi-cuadrado, continuar, aceptar.

Obtenemos el siguiente reporte:

Manual de Estadstica Pgina186


Oficina Acadmica de Investigacin Coordinacin de Mtodos Estadsticos

Grados de
libertad

Valor de p

Valor de X2
calculado

Las Hiptesis serian:


H0: Las variables nivel socioeconmico y dificultad de lenguaje son independientes.
H1: Las variables nivel socioeconmico y dificultad de lenguaje son dependientes.
Como p =0.043< =0.05 se rechaza la hiptesis nula es decir las variables nivel
socioeconmico y dificultad de lenguaje son dependientes.

EJERCICIOS DE APLICACIN N 13
Con procedimiento manual:
1. En un estudio se seleccionan al azar 200 trabajadores y se les clasifica de acuerdo a sus hbitos de
beber licor. Se obtienen los siguientes resultados:

Manual de Estadstica Pgina187


Oficina Acadmica de Investigacin Coordinacin de Mtodos Estadsticos

Hbitos de beber licor Rendimiento laboral


Alto Medio Bajo
Bebedor en exceso 24 29 12
Bebedor promedio 24 14 10
Poco bebedor 17 8 19
No bebedor 27 19 9

En este estudio se quiere probar la hiptesis de independencia de los factores, es decir, el


rendimiento laboral de un trabajador es independiente del hbito que tiene de beber licor, para
una significancia = 0.05.

2. En un estudio realizado por el Instituto de Investigacin de una universidad acerca del prejuicio
tnico (racismo) en los universitarios de Lima, se aplic una encuesta a los estudiantes segn su
lugar de residencia, obtenindose los resultados que presenta la siguiente tabla:

Lugar de Residencia Grado de Prejuicio Total


Alto Bajo
Asentamientos Humanos 32 28 60
Urbanizaciones 225 290 515
Residencial 50 79 129
Total 307 397 704

A un nivel de significacin del 5%, probar si las variables prejuicio tnico y lugar de residencia son
independientes.

3. El siguiente cuadro muestra el resultado de un experimento para investigar el efecto de la


vacunacin de animales de laboratorio contra una determinada enfermedad. Mediante un nivel de
significacin del 0.05, probar la hiptesis que no hay diferencia entre los grupos vacunados y no
vacunados, es decir la vacunacin y esta enfermedad son independientes.
Pasaron la No pasaron la Total
enfermedad enfermedad
Vacunados 10 39 49
No vacunados 16 31 47
Total 26 70 96

4. En la Escuela de Psicologa de la UCV se desea determinar si existe asociacin entre el ciclo de


estudios del estudiante y el nivel de nerviosismo frente a una exposicin medido por una prueba
estndar de nerviosismo y ansiedad, se eligen aleatoriamente 400 estudiantes de la escuela de
Psicologa de los tres turnos y se obtienen los siguientes resultados:

Ciclo de Nivel de nerviosismo y ansiedad Total


estudios No Ligeramente Moderadamente Extremadamente

Manual de Estadstica Pgina188


Oficina Acadmica de Investigacin Coordinacin de Mtodos Estadsticos

nervioso nervioso nervioso nervioso


I ciclo 20 20 40 80 160
II ciclo 10 30 30 30 100
III ciclo 40 20 10 10 80
IV ciclo 40 20 0 0 60
Total 110 90 80 120 400
Se realiza la prueba con nivel de significacin del 5%.

Con reporte SPSS:


5. Analizar si existe o no relacin entre el consumo de bebidas alcohlicas y el sexo de la persona
mediante un nivel de significacin del 0.05. Se obtuvo la informacin respectiva obtenindose los
siguientes resultados en funcin de la salida del SPSS:
Tabla de contingencia Consumes bebidas alcohlicas * Sexo de la persona
Consumes bebidas alcohlicas Sexo de la persona
Mujer Varn Total
No, nunca 17 5 22
Espordicamente 57 11 68
Slo los fines de semana 69 18 87
Los fines de semana y un da ms 16 7 23
Total 159 41 200
Pruebas de chi-cuadrado
Sig. asinttica
Valor gl
(bilateral)
a
Chi-cuadrado de Pearson 2,242 3 ,524
Razn de verosimilitudes 2,154 3 ,541
Asociacin lineal por lineal ,789 1 ,374
N de casos vlidos 200
6. Para conocer la opinin de los ciudadanos de Lima sobre la sentencia al ex presidente Alberto
Fujimori, se tom una muestra de 120 personas, obteniendo los siguientes resultados con reporte
de SPSS:

Pruebas de chi-cuadrado

Sig. asinttica
Valor gl (bilateral)
Chi-cuadrado de Pearson .343 2 .842

Usando un nivel de significacin del 5% , se puede afirmar que la opinin sobre la sentencia al ex
presidente es independiente del gnero?

7. Supongamos que se quiere estudiar la posible asociacin entre el hecho de que una gestante fume
durante el embarazo y que el nio presente bajo peso al nacer. Para responder a esta pregunta se
realiza un estudio a 2000 gestantes, a las que se interroga sobre su hbito tabquico durante la
gestacin y se determina adems el peso del recin nacido. Los resultados del programa SPSS se
muestran a continuacin:

Manual de Estadstica Pgina189


Oficina Acadmica de Investigacin Coordinacin de Mtodos Estadsticos

Tabla de contingencia Gestante * Recin nacido de bajo peso


Recin nacido de bajo peso
Total
Si No
Gestante Fumadora 43 207 250
No fumadora 105 1645 1750
Total 148 1852 2000
Pruebas de chi-cuadrado
Sig. asinttica
Valor Gl (bilateral)
Chi-cuadrado de Pearson 79.277(a) 2 .000
Razn de verosimilitudes 95.463 2 .000
N de casos vlidos 474
a 0 casillas (.0%) tienen una frecuencia esperada inferior a 5.
La frecuencia mnima esperada es 12.30.

Se quiere probar si hay relacin entre que una gestante fume durante el embarazo y que el
nio presente bajo peso al nacer, a un nivel de significancia del 5%

8. Hasta la gerencia de un centro comercial, ha llegado el reporte de quejas en la calidad de atencin


de los empleados. El administrador afirma que la calidad de atencin de los empleados depende de
la seccin donde labora. Para corroborar esta afirmacin se hizo una encuesta a una muestra de 256
empleados. Los resultados de la encuesta procesados en el programa SPSS, se muestran a
continuacin:

Ser correcta la afirmacin del administrador?. La prueba se realiz con 99% de confianza.

Manual de Estadstica Pgina190


Oficina Acadmica de Investigacin Coordinacin de Mtodos Estadsticos

9. Durante el desayuno en el restaurante de un hotel donde estn alojados los estudiantes de turismo
en la selva, localidad sta donde proliferan los mosquitos, uno de los estudiantes comenta a sus
otros tres compaeros de mesa sus problemas con los mencionados insectos. Los otros tres no
tuvieron demasiados problemas ya que utilizaron repelentes de insectos, cada una de marca
diferente. El afectado pregunta cul es el mejor, uno de ellos sostiene que todos son igual de
eficaces mientras que otro dice que no, que hay diferencias. Para contrastar la hiptesis del primero
deciden realizar el siguiente experimento. Cada uno de los tres elegir al azar a 30 de sus
compaeros a quienes les administrar el producto correspondiente. A la maana siguiente
recopilan la siguiente informacin con reporte de salida SPSS:
Tabla de contingencia Problemas con insectos * Marcas de repelentes
Recuento

Marcas de repelentes

REPELENTE A REPELENTE B REPELENTE C Total

Problemas con insectos No afectados 5 4 7 16

Afectados 25 26 23 74
Total 30 30 30 90

Pruebas de chi-cuadrado

Sig. asinttica
Valor gl (bilateral)
a
Chi-cuadrado de Pearson 1,064 2 ,587
Razn de verosimilitudes 1,051 2 ,591
Asociacin lineal por lineal ,451 1 ,502
N de casos vlidos 90
a. 0 casillas (,0%) tienen una frecuencia esperada inferior a 5. La
frecuencia mnima esperada es 5,33.
Se puede aceptar la hiptesis de que los tres repelentes tienen el mismo efecto a un
nivel de significacin del 5%?
10. Supongamos que se ha tomado una muestra aleatoria simple de 25 trabajadores. Se hace un
diagnostico sobre el estrs y la condicin de los trabajadores. La tabulacin cruzada de la siguiente
tabla resume las respuestas obtenidas. Los datos de la tabla constituyen las frecuencias observadas
para las seis clases o categoras.

Determine si el nivel de estrs y la condicin del trabajador estn relacionados aun nivel de
significancia del 5%.
Resumen del procesamiento de los casos
Casos
Vlidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje

Manual de Estadstica Pgina191


Oficina Acadmica de Investigacin Coordinacin de Mtodos Estadsticos

Resumen del procesamiento de los casos


Casos
Vlidos Perdidos Total
N Porcentaje N Porcentaje N Porcentaje
Estrs * Condicin 25 100,0% 0 ,0% 25 100,0%

Tabla de contingencia Estrs * Condicin


Recuento
Profesin
Nombrado Contratado Total
Estrs Bajo 2 3 5
Medio 3 6 9
Alto 6 5 11
Total 11 14 25

Pruebas de chi-cuadrado
Sig. asinttica
Valor gl (bilateral)
a
Chi-cuadrado de Pearson ,945 2 ,624
Razn de verosimilitudes ,951 2 ,622
Asociacin lineal por lineal ,495 1 ,482
N de casos vlidos 25
a. 4 casillas (66.7%) tienen una frecuencia esperada inferior a 5. La
frecuencia mnima esperada es 2.20.

Manual de Estadstica Pgina192