Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Ayuda SPSS-Chi Cuadrado Notas Metodologicas PDF
Ayuda SPSS-Chi Cuadrado Notas Metodologicas PDF
1/19
AYUDA SPSS
CHI CUADRADO NOTAS METODOLGICAS
Rubn Jos Rodrguez
Octubre de 2004
INTRODUCCIN
Chi Cuadrado de Pearson es un estadstico no paramtrico y es una potente herramienta para
pruebas de significacin de la hiptesis nula de independencia estadstica entre variables
categoriales en tablas de contingencia. Para poder realizar una correcta aplicacin e
interpretacin de Chi Cuadrado se han desarrollado estas Notas Metodolgicas que sistematizan
las consideraciones de los principales tratadistas en la materia. Se hace hincapi en los anlisis
de los residuos (diferencias entre las frecuencia observadas y esperadas), especficamente en
los residuos tipificado corregidos (o residuos ajustados), dado que nos permiten interpretar con
precisin el significado de la asociacin detectada, en trminos del puntaje standardizado Z.
Tambin se desarrolla formulas alternativas del Chi Cuadrado de Pearson para ciertas
condiciones de uso. Se compara la Prueba de Independencia de la Ley del producto o de la
probabilidad compuesta en el marco de la Teora matemtica de la probabilidad 'a prior' de Pierre
Simn Laplace, con los resultados de Chi Cuadrado. Se expone la Regla de Hans Zeizel para
calcular los porcentajes de celdas. Se introduce la nocin de celda falsificadora de la hiptesis
nula (y las celdas verificadoras de la hiptesis alternativa o del investigador). Se realizar una
lectura de los porcentajes de celdas y se interpreta la diferencia porcentual. Se utiliza la prueba t
de diferencia de media de proporciones para muestras independientes como va alternativa
de establecer la significacin estadstica de la diferencia entre porcentajes condicionales o de
celdas. Por ltimo se expone el caso TITANIC (ver Ayuda SPSS - Chi Cuadrado_Caso TITANIC)
para ejemplificar lo desarrollado es estas notas metodolgicas y brindar una definicin e
interpretacin del P-value. Se resume el modelo Chi Cuadrado, se formulan las hiptesis
estadsticas (nula y del investigador), se establecen las reglas de decisin de Pearson y Fisher, y
se adjunta la tabla de Chi Cuadrado para identificar el Chi Cuadrado terico segn determinados
grados de libertad y nivel de significacin.
Notas I [RJR]:
a) Razn de Verosimilitud Ji-cuadrado: La razn de verosimilitud Ji-cuadrado es
una alternativa al estadstico Ji-cuadrado (X2 = Chi cuadrado) de Pearson para
contrastar la hiptesis de independencia entre las variables. Mientras el estadstico Jicuadrado de Pearson se basa en las diferencias entre las frecuencias observadas y las
frecuencias esperadas, la razn de verosimilitud Ji-cuadrado se basa en el
cociente entre ellas(si) el p-valor asociado a la razn de verosimilitud Ji-cuadrado
(Significance=0,00000) tambin es menor que P = 0,05. En consecuencia, al nivel
de significacin 0,005, tambin se rechazar la hiptesis nula de independencia entre
las variablespodra suceder que, para un mismo nivel de significacin, el p-valor
asociado a uno de estas test, fuera menor que el nivel de significacin, mientras que
el p-valor asociado a la otra prueba fuera mayor, en dicho caso, debera optarse por
el ms conservador (por el que presente menor p-valor).
Ferrn Aranaz, Magdalena (1996). SPSS para Windows. Programacin y anlisis
estadstico. Madrid, Editorial McGraw-Hill. 1996. ISBN 84-481-0589-3, pgs. 144145.
b) El Test de la Razn de Verosimilitudes: Como alternativa al contraste Chicuadrado, S. Wiks (1935), (The Likelihood test of independence in contingency
2/19
F
G 2 2 Fi * ln i
Ei
siendo :
Fi : Frecuencias observadas (fo ), es decir, la cantidad de casos
o de valores que se han registrado para cada valor de la variable,
si es una tabla de contingencia.
E i : Frecuencias esperadas (f e ), suponiendo que la hiptesis
nula que se ensaya es verdadera.
(en general), se obtienen resultados muy similares en todos los casos y, por lo tanto,
el uso de uno u otro procedimiento sera, en principio, indiferente. Ello no obstante, el
test de la razn de verosimilitud presenta una ventaja con respecto al Chicuadrado: No requiere que todas frecuencias esperadas sean mayores de 5
Garca, Roberto M. (1995). Contraste Chi-cuadrado. Buenos Aires, Cuadernos de
UADE n 123, Departamento de Matemtica y Mtodos Cuantitativos, UADE, 1995,
ISBN 987-519-1-012-8, pg. 27.
c)
3/19
estudiar de una manera pormenorizada la tabla: en lugar de ver si las dos variables
estn relacionadas estudiamos la relacin entre cada pareja de categoras.
Bsicamente, el anlisis de los residuos (diferencia entre valor observado (fo),
Oij) y el valor esperado (fe), Eij) es una aplicacin de la Ji-cuadrada al estudio de las
parejas de categoras: observamos las frecuencias obtenidas y las comparamos con
las esperadassi la pareja de categoras no estuviera relacionada el clculo se
realiza segn el procedimiento explicado en 6.3.1. De la magnitud del residuo
concluiremos sobre la relacin entre las categorasCada casilla de la tabla
incluye el nmero de casos, o valores observados (COUNT), los valores esperados
(EXPECTED), la diferencia entre observados y esperados (RESID), los residuos
estandarizados (SRESID) y estos mismos residuos ajustados segn procedimiento de
Haberman (ASRESID). Veamos el clculo de cada uno de estos valores:
4/19
5/19
P=
(a+b)!(c+d)!(a+c)!(b+d)!
N! a! b! c! d!
6/19
Total
a+b
c+d
Total
a+c
b+d
[Elaboracin propia][RJR]
a) Igualdad de proporciones entre distribuciones condicionales y marginales:
SI:
d
cd
Independencia
bd
n
Hombre
Mujer
Total
Solteros
8.000
5.000
13.000
Casados
10.000
12.000
22.000
1.000
4.000
5.000
21.000
40.000
Viudos
Total
19.000
PA/B
P(A)
7/19
Galtung, Johan (1966): Teora y mtodos de la investigacin social, 2 ed., Buenos Aires, Eudeba, Tomo
II, 1969, p. 234: La regla es muy simple: sacar porcentajes tomando siempre como base los valores de lo
que se considera variable independiente en el modelo subyacente.
8/19
sentido de la variable independiente, -tomando como base el marginal de esta ltima- y comparar
los porcentajes en sentido opuesto. Tambin debemos observar la forma de la distribucin
condicional relativa (distribucin diagonal o rinconal), e identificar las celdas verificadoras
(circuladas en rojo en el ejemplo) y las celdas falsificadoras de la hiptesis que subyace al cuadro.
En nuestro ejemplo:
TABLA 3
Sexo (%)
Estado Civil
Hombre
Mujer
d%
Solteros
42,1
23,8
32,5
18,3
Casados
55,6
57,1
55,0
-1,5
5,3
19,1
12,5
-13,8
100,0
: 0
Viudos
Total
100,0
100,0
Obsrvese que los porcentajes resaltados en azul, coinciden con las proporciones y probabilidades
obtenidas mediante los criterios alternativos (a) y (b). La Diferencia porcentual, nos indica la
fuerza o intensidad relativa de la asociacin entre las variables, y no solamente es una Prueba
de Independencia. Si la d% = 0 indica independencia estadstica, o asociacin nula, y si la d% =
100, estara sealando mxima asociacin. En nuestro ejemplo, (d% = -13,8) indica leve
asociacin. Hubiese existido asociacin nula segn los subndices de la TABLA 1- si los
porcentajes hubiesen sido iguales:
p 00 p01
p 00 p 01
No obstante que, la diferencia porcentual como medida de asociacin, acta como medida de
influencia de una variable X sobre otra Y, debe ser interpretada mediante la prueba t de
diferencia de medias de proporciones para muestras independientes (Galtung, 1969, II: 241)
para medir la significacin estadstica del tamao de la diferencia, pues una d% = 10%, puede ser
tanto la diferencia entre 95-85% como entre 25-15%. Si bien en ambos casos la d% es igual al
10%. En el primer caso la diferencia del 10% en proporcin al porcentaje menor representa un
incremento porcentual (%) del 11,76%:
9/19
95 85
% 100
11, 76%
85
Mientras que en el segundo caso la diferencia del 10% en proporcin al 15% representa un
incremento (%) del 66,67%. En este sentido, se puede opinar que es ms significativo este
segundo caso que el primero.
25 15
% 100
66, 67%
15
d) Un cuarto modo es, justamente, la prueba t de diferencias de proporciones de
dos muestras independientes, que permite verificar diferencias entre proporciones
o porcentajes (d%) de dos muestra (grandes) independientes. Los componentes del
modelo y los pasos para el clculo del estadstico de prueba, son:
Modelo estadstico: Distribucin de diferencias de proporciones muestrales,
con media igual a la Media de la distribucin diferencias de proporciones
muestrales y con Desvo Standard igual al Error Estndar de las diferencias
de proporciones muestrales. En smbolos:
D 0
p1 q1 p2 q2
n1
n2
= ESD
H 0 p1 p2 D 0
H1 p1 p2 0; o D 0
Estadstico de prueba:
Caso I: t de Student para diferencias de proporciones muestrales
independientes (muestras grandes).
t p p
1
10/19
p1 p2
d%
p1 q1 p2 q2 D
n1
n2
Estadstico de prueba:
Caso II: t de Student diferencias de medias de muestras independientes
(muestras grandes).
t X1 X 2
X 2 D
2
1
s
n1
s2
n2
DX X
1
/h
2
Visauta Vinacua, Bienvenido (1997): Anlisis estadstico con SPSS para Windows (6.1), Madrid,
McGraw-Hill, 1997, captulo 4: Test de hiptesis: Comparacin de medias, pp. 111-114.
11/19
iv. Luego se definen los grupos: Usar valores especificados O Punto de corte.
Oprimir Continuar para volver a la ventana original o primaria. Y luego Aceptar.
SPSS ejecuta el comando T-Test y arroja dos tablas con los resultados que se
observan en el Visor de SPSS:
TABLA 4
Estadsticos de grupo
Sector-ServicioIndustria
Beneficios antes de
impuestos (1995)
Media
Desviacin tp.
Sector Servicios
39
23.068,74
50.154,834
8.031,201
Sector Industrial
36
10.774,83
32.247,476
5.374,579
TABLA 5
Prueba de muestras independientes
Prueba de
Levene para la
igualdad de
varianzas
F
Beneficios
antes de
impuestos
(1995)
Sig.
Sig.(
bilate
ral)
gl
Diferencia
de medias
Error tp.
de la
diferencia
Inferior
Se han
asumido
varianzas
iguales
No se han
asumido
varianzas
iguales
2,356
,129
Superior
1,251
73
,215
12.293,91
9.827,639
7.292,546
31.880,367
1,272
65,413
,208
12.293,91
9.663,658
7.003,436
31.591,256
12/19
t X1 X 2
t X1 X 2
X 2 D
2
1
s
n1
s2
n2
DX X
1
12.293,91
1, 251
9.827,639
vii. Por ltimo, tomamos la decisin estadstica con relacin a la hiptesis nula.
Dado que aplicando la Regla de Decisin de Fisher, tenemos que:
Si P-Value < P
Pero:
H0 y H1
H0 y H1
13/19
Tabla de contingencia: Destino en el hundimiento del TITANIC segn el Sexo del pasajero
Sexo del pasajero
Hombres
Recuento
Destino en el
hundimiento
Se salvaron
163
800
82,2%
32,0%
62,3%
154,5
-154,5
Residuos
tipificados
7,0
-8,7
Residuos
corregidos
18,2
-18,2
Recuento
138
347
485
% de Sexo de
pasajero
17,8%
68,0%
37,7%
Residuo
-154,5
154,5
-9,0
11,1
-18,2
18,2
775
510
1285
100,0%
100,0%
100,0%
Residuo
Residuos
tipificados
Residuos
corregidos
Total
Total
637
% de Sexo de
pasajero
Perecieron
MujeresNios
Recuento
% de Sexo de
pasajero
d%
+50,2%
-50,2%
Adaptado y reelaborado de Sanchez Carrin (1999: 331-333) (S.S. Titanic, White Star Line, 14
de abril de 1912)[RJR]
14/19
Pruebas de chi-cuadrado
Valor
Sig. asinttica
(bilateral)
gl
P-value
Chi-cuadrado de Pearson
330,307(b)
,000
328,172
,000
Razn de verosimilitud
338,182
,000
Sig. exacta
(bilateral)
Estadstico exacto de
Fisher
,000
Sig. exacta
(unilateral)
330,050
,000
,000
1285
TABLA 8
Medidas simtricas
Valor
Sig.
aproximada
Phi
,507
,000
V de Cramer
,507
,000
Coeficiente de Contingencia
,452
,000
N de casos vlidos
1285
Las conclusiones que se pueden obtener a partir de los resultados de las distintas
medias, pruebas y coeficientes, son:
La diferencia porcentual (d% = 82,2-32,0=50,2%) acta como medida de la
influencia que tuvo el sexo en la suerte corrida por los pasajeros.
Se confirma una distribucin diagonal de las frecuencias condicionales relativas,
efectivamente, la celda verificadora esperada segn el principio marinero, confirma
que el porcentaje de mujeres/nios que sobrevivieron es 3,8 veces ms (68,0/17,8)
que los hombres que se salvaron. Siendo importante esta magnitud de la diferencia
porcentual.
Los Residuos tipificados corregidos ( 18,2) se ubican a 9,2 Desvos Standard
respecto del valor crtico 1,96 esperado por azar (18,2/1,96= 9,2), con un intervalo
de confianza de .95. Un tal desvo no puede ser atribuido al azar sino que cabe
esperar que para producirse una tal diferencia es probable (95 veces de cada 100)
15/19
que haya operado una decisin y una voluntad en el alto mando del S.S. TITANIC, de
hacer cumplir el principio marinero de salvar a las mujeres y nios primero.
El valor del Chi cuadrado calculado o emprico (Chi-square value) es de una magnitud
muy grande (330,307) y acusa una Significacin asinttica bilateral de .000. Esta
cifra es una probabilidad y significa = P-Value. Cuando esta probabilidad es inferior a
0,05, (P: Nivel de Significacin = 5%) se suele rechazar la hiptesis de independencia
Ho de no relacin entre las variables segn la Regla de decisin de Fisher-, para
aceptar la hiptesis alternativa H1, que indica que la relacin entre las variables existe
y es estadsticamente significativa y no se debe al azar. Se puede concluir que el
capitn del S. S. Titanic hizo honor a la armada britnica aplicando con firmeza el
principio marinero que dice: Primero las mujeres y los nios, y luego los hombres,
permitiendo que sobrevivan ms mujeres que hombres, ms all del azar, que es lo
sostenido por la hiptesis del investigador. En smbolos:
Si P-Value < P H0 y H1
Si 0,000 < 0,05 H0 y H1
Regla de decisin de Pearson:
16/19
P 0, 05
Rechazo H 0
Aceptacion H0
P-value= 0,000
Zona de Riesgo
CALCULADORA CHI-CUADRADO3
CORRECCION DE CONTINUIDAD DE YATES
SUM
637
163
800
II
138
347
485
SUM
775
510
1285
328.172423
Difference (p<0.05)?
yes
Difference (p<0.01)?
yes
[RJR]
17/19
df
0.995
0.99
0.975
0.95
0.90
0.10
0.05
18/19
0.025
0.01
0.005
---
---
0.001
0.004
0.016
2.706
3.841
5.024
6.635
7.879
0.010
0.020
0.051
0.103
0.211
4.605
5.991
7.378
9.210
10.597
0.072
0.115
0.216
0.352
0.584
6.251
7.815
9.348
11.345
12.838
0.207
0.297
0.484
0.711
1.064
7.779
9.488
11.143
13.277
14.860
0.412
0.554
0.831
1.145
1.610
9.236
11.070
12.833
15.086
16.750
0.676
0.872
1.237
1.635
2.204
10.645
12.592
14.449
16.812
18.548
0.989
1.239
1.690
2.167
2.833
12.017
14.067
16.013
18.475
20.278
1.344
1.646
2.180
2.733
3.490
13.362
15.507
17.535
20.090
21.955
1.735
2.088
2.700
3.325
4.168
14.684
16.919
19.023
21.666
23.589
10
2.156
2.558
3.247
3.940
4.865
15.987
18.307
20.483
23.209
25.188
11
2.603
3.053
3.816
4.575
5.578
17.275
19.675
21.920
24.725
26.757
12
3.074
3.571
4.404
5.226
6.304
18.549
21.026
23.337
26.217
28.300
13
3.565
4.107
5.009
5.892
7.042
19.812
22.362
24.736
27.688
29.819
14
4.075
4.660
5.629
6.571
7.790
21.064
23.685
26.119
29.141
31.319
15
4.601
5.229
6.262
7.261
8.547
22.307
24.996
27.488
30.578
32.801
16
5.142
5.812
6.908
7.962
9.312
23.542
26.296
28.845
32.000
34.267
17
5.697
6.408
7.564
8.672
10.085
24.769
27.587
30.191
33.409
35.718
18
6.265
7.015
8.231
9.390
10.865
25.989
28.869
31.526
34.805
37.156
19
6.844
7.633
8.907
10.117
11.651
27.204
30.144
32.852
36.191
38.582
20
7.434
8.260
9.591
10.851
12.443
28.412
31.410
34.170
37.566
39.997
21
8.034
8.897
10.283
11.591
13.240
29.615
32.671
35.479
38.932
41.401
22
8.643
9.542
10.982
12.338
14.041
30.813
33.924
36.781
40.289
42.796
23
9.260
10.196
11.689
13.091
14.848
32.007
35.172
38.076
41.638
44.181
24
9.886
10.856
12.401
13.848
15.659
33.196
36.415
39.364
42.980
45.559
25
10.520
11.524
13.120
14.611
16.473
34.382
37.652
40.646
44.314
46.928
26
11.160
12.198
13.844
15.379
17.292
35.563
38.885
41.923
45.642
48.290
19/19
27
11.808
12.879
14.573
16.151
18.114
36.741
40.113
43.195
46.963
49.645
28
12.461
13.565
15.308
16.928
18.939
37.916
41.337
44.461
48.278
50.993
29
13.121
14.256
16.047
17.708
19.768
39.087
42.557
45.722
49.588
52.336
30
13.787
14.953
16.791
18.493
20.599
40.256
43.773
46.979
50.892
53.672
40
20.707
22.164
24.433
26.509
29.051
51.805
55.758
59.342
63.691
66.766
50
27.991
29.707
32.357
34.764
37.689
63.167
67.505
71.420
76.154
79.490
60
35.534
37.485
40.482
43.188
46.459
74.397
79.082
83.298
88.379
91.952
70
43.275
45.442
48.758
51.739
55.329
85.527
90.531
95.023
100.425
104.215
80
51.172
53.540
57.153
60.391
64.278
96.578
101.879
106.629
112.329
116.321
124.116
128.299
90
59.196
61.754
65.647
69.126
73.291
107.565
113.145
118.136
100
67.328
70.065
74.222
77.929
82.358
118.498
124.342
129.5