Documentos de Académico
Documentos de Profesional
Documentos de Cultura
VAR
B1
B2
B3
Br
Total
A1
O11
O21
O31
A2
O12
O22
O32
VAR
A3
O13
O23
O33
OR1
C1
OR2
C2
OR3
C3
Ac
O1C
O2C
O3C
ORC
Cc
Total
R1
R2
R3
Rr
N
A2
Total
Edgar Acua
B1
B2
Total
8
12
20
6
9
15
194
14
21
35
La primera pregunta que uno se hace es si existir o no relacin entre las variables A y B,
es decir si A y B son o no independientes. A y B sern independientes si cada entrada de
la tabla es igual al producto de los totales marginales dividido entre el nmero de datos.
Esto es si cumple,
Oij
Ri C j
n
para cada celda (i, j). Claramente, esto se cumple para la tabla anterior. Por ejemplo,
8 = (14)(20)/35. En consecuencia, no hay relacin entre las variables A y B.
Otra pregunta que se puede tratar de responder es s las proporciones de los valores de la
variable B en cada columna son iguales. Por ejemplo si A: El estudiante graduando
consigue trabajo, B: Sexo del graduando. Uno puede estar interesado en comparar la
proporcin de mujeres graduandas que consiguen trabajo con la proporcin de mujeres
graduandas que no consiguen trabajo.
Consideremos ahora la tabla:
B1
B2
Total
A1
10
5
15
A2
6
16
22
Total
16
21
37
Notar que los valores de la segunda fila estn en sentido contrario a los de la primera fila.
O sea hay un efecto en la variable A al cambiar los valores de B, en consecuencia aqu si
hay relacin entre las variables. Es bien obvio, tambin que la frmula de independencia
no se cumple para ninguna de las entradas. Por otro lado las proporciones de los valores de
la variable B no son los mismos en cada columna. Por ejemplo para B1 las proporciones son
10/15 versus 6/22.
Cuando consideramos que los valores de nuestra tabla han sido extrados de una
poblacin, entonces nos interesara probar las siguientes dos hiptesis:
i)
ii)
Edgar Acua
195
Por ejemplo, nos gustara saber si hay o no relacin entre el nivel econmico de una
persona y su afiliacin poltica. Tambin podramos estar interesados en determinar si hay
relacin entre el nivel de educacin y el nivel de salario. En ambos casos se usara una
prueba de independencia.
Por otro lado, tambin podramos estar interesados en probar si para cada nivel
econmico hay igual proporcin de personas en cada partido politico, o si para cada nivel
de educacin hay igual proporcin de personas en cada nivel de salario. En estos casos se
usara una prueba de homogeneidad.
Sin embargo; ambos tipos de hiptesis se pueden probar de la misma manera y el
procedimiento se resume en el recuadro que sigue:
Las hiptesis de independencia son:
Ho: No hay asociacin entre las variables A y B ( es decir hay independencia)
Ha: Si hay relacin entre las variables A y B
Las hiptesis de Homogeneidad son:
Ho: Las proporciones de cada valor de la variable B son iguales en cada columna
Ha: Al menos una de las proporciones para cada valor de la variable B no son iguales en cada
columna.
Ambas hiptesis se prueban usando una prueba de Ji-Cuadrado:
c
(Oij Eij ) 2
Eij
i 1 i 1
donde Oij es la frecuencia observada de la celda que est en la fila i , columna j, y Eij
Ri C j
n
es la frecuencia esperada de la celda (i, j). La frecuencia esperada es aquella que debe ocurrir para
que la hiptesis nula sea aceptada.
La prueba estadstica se distribuye como una Ji-Cuadrado con (r-1)(c-1) grados de libertad.
La hiptesis Nula se rechaza si
2
cal
2
1
Edgar Acua
196
Ejemplo 8.1. Usando los datos del ejemplo 3.16, supongamos que deseamos establecer si
hay relacin entre las variables tipo de escuela superior y el resultado (aprueba o no
aprueba), de la primera clase de matemticas que toma el estudiante en la universidad,
basados en los resultados de 20 estudiantes.
Solucin:
Para la prueba de Independencia las hiptesis son:
Ho: No hay relacin entre el tipo de escuela y el resultado obtenido en la primera clase de
Matemticas.
Ha: Si hay relacin entre ambas variables.
Para la prueba de homogeneidad las hiptesis son:
Ho: La proporcin de aprobados en la primera clase de matemticas es igual tanto para
estudiantes que provienen de escuela pblica como de escuela privada.
Ha: La proporcin de aprobados en la primera clase de matemticas no es la misma para
ambos tipos de escuela.
La ventana de dilogo se completer como aparece en la siguiente figura:
Figura 8.1. Ventana de dilogo de la opcin Cross Tabulation del submen Tables del men
Stat
Columns: aprueba
Edgar Acua
si
no
All
priv
7
6.00
3
4.00
10
10.00
pbl
5
6.00
5
4.00
10
10.00
197
All
12
8
20
12.00
8.00
20.00
Chi-Square = 0.833, DF = 1, P-Value = 0.361
2 cells with expected counts less than 5.0
Cell Contents -Count
Exp Freq
Interpretacin: Como el P-value es mayor que .05 se puede concluir que la hiptesis
nula de Independencia entre las variables es aceptada. O sea no hay asociacin entre el
tipo de escuela de donde proviene el estudiante y el resultado que obtiene en la primera
clase de matemticas.
Por otro lado, la hiptesis nula de homogeneidad tambin es aceptada y se concluye de
que, la proporcin de estudiantes que aprueban el curso de matemticas es la misma para
estudiantes de escuela pblica y escuela privada.
La segunda situacin donde Cross Tabulation es usada para hacer el anlisis de Jicuadrado, es cuando los datos ya estn resumidos en tablas con filas y columnas, sta es la
manera usual como aparecen en los textos. En este caso, para que MINITAB pueda hacer
el anlisis se deben entrar los datos en 3 columnas. En una columna deben ir las
frecuencias observadas en cada celda de la tabla y en las otras dos columnas deben ir los
valores de las variables en filas y columnas que permitan identificar a qu celda le
corresponde la frecuencia absoluta entrada.
Ejemplo 8.2. Usar los datos del ejemplo 3.17, para tratar de establecer si hay relacin
entre el Sexo del entrevistado y su opinin.
Solucin: Las hiptesis correpondientes son:
Ho: No hay asociacin entre el sexo del entrevistado y su opinin, y
Ha: Si hay relacin entre las variables.
En este caso los datos son entrados en tres columnas: Conteo (frecuencia en cada celda),
Sexo y Opinin. La ventana de dilogo se completar como se muestra en la figura 8.2
Los resultados sern los siguientes:
MTB > Table 'sexo' 'opinion';
SUBC>
Frequencies 'conteo';
SUBC>
ChiSquare 2.
Tabulated Statistics
Rows: sexo
Columns: opinin
Edgar Acua
si
no
abst
All
male
10
10.00
20
20.40
30
29.60
60
60.00
female
15
15.00
31
30.60
44
44.40
90
90.00
All
25
25.00
51
51.00
74
74.00
150
150.00
198
Interpretacin: Como el "P-value" es mayor que .05, la conclusin en este caso es que
la hiptesis nula es aceptada o sea no hay relacin entre el sexo y la opinin del
entrevistado.
Figura 8.2. Ventana de dilogo de cross tabulation para analizar el ejemplo 8.2.
Notar que la opcin Chi-square analysis aparece seleccionada. Como se ha elegido la opcin
above and expected count, la tabla de salida mostrar las frecuencias absolutas y las frecuencias
esperadas de cada celda, en la ventanita de frecuencies are in: se asigna la columna conteo.
Edgar Acua
199
Ejemplo 8.3. Para los datos del ejemplo 3.17, donde la tabla es:
Hombres
Mujeres
SI
10
15
NO
20
31
Abst
30
44
Primero se entran los datos en 3 columnas: SI, NO y ABST y luego se completa la ventana
de dilogo de Chi-Square Test como sigue:
Figura 8.3. Ventana de dilogo para la opcin Chi-Square Test del men Tables
Los resultados aparecern de la siguiente manera:
MTB > ChiSquare 'si'-'abst'.
Chi-Square Test
Expected counts are printed below observed counts
1
si
10
no
20
abst
30
Total
60
Edgar Acua
10.00
20.40
29.60
15
15.00
31
30.60
44
44.40
90
25
51
74
150
Total
200
Chi-Sq =
0.022
Se puede notar que la presentacin de la tabla no es tan buena como en los dos casos
anteriores, pero si se presentan los clculos intermedios de la prueba de Ji-Cuadrado.
2
, donde 2 es el valor calculado de la prueba de Ji-Cuadrado y n es el
n 2
nmero de datos.
El valor de C vara entre 0 y 1. Si C = 0, significa que no hay asociacin entre las
variables. El coeficiente de contigencia tiene la desventaja de que no alcanza el valor de
uno an cuando las dos variables sean totalmente dependientes. Otra desventaja es que su
valor tiende a aumentar a medida que el tamao de la tabla aumenta.
En general, un valor de C mayor que .30, indica una buena asociacin entre las
variables. Sin embargo hay que tomar en consideracin tambin el tamao de la tabla.
A diferencia de otros programas estadsticos como SPSS y SAS, MINITAB no calcula el
coeficiente de contingencia directamente. Se tiene que usar Calculator del men CALC.
Ejemplo 8.4. Calcular el coeficiente de contingencia para la siguiente tabla, donde se trata
de relacionar las variables: asistir a servicios religiosos y faltar a clases.
Rows: va a igl
Columns: falta a
de vez e frecuent
nunca
All
de vez e
78
75.56
119
103.44
140
158.01
337
337.00
frecuent
106
110.31
90
151.01
296
230.68
492
492.00
68
66.14
136
90.55
91
138.31
295
295.00
252
252.00
345
345.00
527
527.00
1124
1124.00
nunca
All
Edgar Acua
201
Figura 8.4. Ventana de dilogo de Calculator para hallar el coeficiente de contigencia del ejemplo
8.4
Data Display
coef-conting
0.267807
Interpretacin:
No existe una buena asociacin entre asistir a la iglesia y faltar a clases.
b) El Coeficiente de Cramer:
Se calcula por
Edgar Acua
202
Columns: pet?
no
si
All
11
5.93
3
8.07
14
14.00
vive
28
33.07
50
44.93
78
78.00
All
39
39.00
53
53.00
92
92.00
muere
En este caso r=2 y c=2, luego t es el menor de r-1=1 y c-1=1, asi t=1
Edgar Acua
203
Figura 8.5. Ventana de dilogo de Calculator para hallar el coeficiente de Cramer del ejemplo
8.5.
Intrepretacin: Se concluye que existe buena asociacin entre tener mascota y sobrevivir
a un ataque cardaco.
1
Obs1
2
Obs2
3
Obs3
K
Obsk
Edgar Acua
204
La hiptesis nula es Ho: p1 = p10, p2 = p20 = = pk = pk0, es decir los datos siguen la
distribucin deseada, y la hiptesis alterna es Ha: al menos una de las pi es distinta de la
probabilidad dada pi0.
La prueba estadstica es:
(Obsi npio ) 2
npio
i 1
k
4830
5972
5229
5748
4932
5936
5052
5072
5198
5712
Solucin:
La hiptesis nula es Ho: Hay igual probabilidad de nacer en cualquier mes del ao (es
decir, p1 = p2 = = p12 = 1/12 = .083). La hiptesis alterna es que no hay igual
probabilidad de nacer en cualquier mes del ao.
La ventana Session es como sigue:
MTB > let c3=sum(Obs)*p
MTB > let c4=(Obs-c3)**2/c3
MTB > let k5=sum(c4)
Esta es la prueba de Ji-Cuadrado para Bondad de ajuste
MTB > print k5
Data Display
K5
402.384
Edgar Acua
205
Casado
40
Viudo
12
Divorciado
18
De acuerdo al censo de 1990, en Puerto Rico se tiene la siguiente distribucin de personas adultas
por estado marital:
Soltero
811,291
Casado
1279,628
Viudo
198,553
Divorciado
189,346
Se desea establecer si la distribucin del estado marital en Puerto Rico, es igual a la de los
Estados Unidos. Usar un nivel de significacin del 5%.
Edgar Acua
206
Solucin:
La hipotesis nula Ho: Los datos tomados en Puerto Rico siguen la misma distribucin de
la de Estados Unidos, mientras que la hiptesis alterna Ha: Los datos no siguen la misma
distribucin.
Las ventanas Session y Data aparecern como sigue:
MTB > Let 'np' = sum(obs)*p
MTB > Let '(Obs-np)^2/np' = (obs-np)**2/np
MTB > Let k5 = sum('(Obs-np)^2/np')
Esta es la prueba de Ji-Cuadrado
MTB > print k5
Data Display
K5
270598
Edgar Acua
207
EJERCICIOS
1.
La siguiente tabla muestra los resultados de un estudio para mostrar la relacin entre
asistir a la iglesia los domingos y la ausencia a clases para jovenes entre 13 y 18 aos:
Va a la Iglesia
Nunca
De vez en Cuando
Frecuentemente
a)
Nunca
91
140
296
Falta a Clases
De vez en Cuando
68
78
106
Frecuentemente
136
119
90
3.
En una ciudad se hace un estudio para relacionar los hbitos de fumar de los
estudiantes de escuela superior con las de sus padres. Los resultados que se obtienen
aparecen en la siguiente tabla:
Estudiante
Fuma
400
416
188
Estudiante
no Fuma
1380
1823
1168
Calcular la proporcin de estudiantes que fuman para cada uno de los grupos de padres.
Qu puede concluir de estos resultados?
Edgar Acua
b)
c)
4.
208
Calcular las frecuencias esperadas de cada celda de la tabla si no hubiera relacin entre
los hbitos de fumar de los estudiantes con las de sus padres.
Probar la hiptesis de que no hay relacin entre los hbitos de fumar de los estudiantes
con los de sus padres.
La siguiente tabla reporta informacin acerca del sexo, status econmico de la mayora de
los pasajeros del TITANIC, un crucero britnico de lujo que se hundi en 1912.
Status
Alto
Medio
Bajo
Total
Hombres
Muri Sobrevivi
111
61
150
22
419
85
680
168
Mujeres
Muri
6
13
107
126
Sobrevivi
126
40
101
317
5.
Las encuestas sobre asuntos sensitivos pueden dar diferentes resultados dependiendo
de como se hace la pregunta. Se hace una encuesta a 2400 personas para estimar el
uso de cocana. Se dividieron al azar a los encuestados en 3 grupos de 800 cada uno,
y se les pregunt si alguna vez haban usado cocana El primer grupo fue entrevistado
por telfono, y 21% dijeron que haban usado cocaina. El Segundo grupo fue
entrevistado personalmente, y 25% dijeron que haban usado cocana. En el tercer
grupo, donde se permiti una respuesta escrita annima, el 28% contestaron
positivamente a la pregunta.
Probar si hay efecto del mtodo de hacer la pregunta en la estimacin de la proporcin
de usuarios de cocana.
6.
En una ciudad se hace una encuesta a 103 personas entre los 25 y 30 aos acerca de su
estado marital. Los resultados estn resumidos en la siguiente tabla:
Estado Marital
Nunca Casado
Casado
Viudo, Divorciado, Separado
Hombre
20
19
9
Mujer
9
39
7
a) Piensa Ud. que la distribucin del estatus marital es la misma para ambos
sexos?.
b) Si las distribuciones son diferentes, con quines se estn casando las mujeres?
Edgar Acua
7.
209
8.
Pas
30%
45%
12%
13%
Alcaldes electos
6
15
27
30
Habr suficiente evidencia para concluir que la distribucin del nivel educacional de
los alcaldes electos sigue la misma distribucin del pas?. Usar un nivel de
significacin del 5%.
9.
Un Socilogo piensa que hay ms probabilidad de que un crimen ocurra durante los
fines de semana. En particular l piensa que la probabilidad de que un crimen ocurra
el sbado es igual a la probabilidad de que un crimen ocurra el domingo, y stas a su
vez son el doble de probabilidad de que un crimen ocurra un dia de semana. Para
probar su afirmacin usa los siguientes datos de crmenes ocurridos en un mes
cualquiera del ao.
Lunes Mrtes Mircoles Jueves Viernes Sbado Domingo
18
23
19
16
21
42
37
Usar un nivel de significacin del 1%.