Documentos de Académico
Documentos de Profesional
Documentos de Cultura
TEMAS:
Chi-cuadrado para una muestra. Chi cuadrado para la asociacin bivariada. Otros coeficientes de asociacin para tablas de Contingencia.
Objetivos de la prueba y nivel de medicin de las variables. Tipos de pruebas t de Student para dos muestras: T de Student para muestras relacionadas. Objetivos de la prueba y nivel de medicin de las variables. Interpretacin Anlisis PostHoc (Scheff y Tukey)
Vamos a ver en esta unidad entonces la idea de ASOCIACIN BIVARIADA as como la de COMPARACIN DE MEDIAS entre dos o ms grupos. Estas tcnicas sirven para dos objetivos distintos, pero tienen en comn el hecho de ocupar siempre 2 variables. ASOCIACIN BIVARIADA: una variable asociada a otra.
Se ocupa la idea de que hay una variable independiente que est asociada a otra variable dependiente (prueba chi-cuadrado) o bien que dicha variable independiente genera efectos en la variable independiente que pueden ser medidos o cuantificados (r de Pearson). La regresin tambin habla de asociacin, pero en sentido de prediccin de los valores de la variable dependiente en funcin de los valores que adquiere la variable independiente.
COMPARACIN DE MEDIAS: una variable independiente cualitativa establece dos o ms grupos y una variable dependiente que es cuantitativa y a la cual se calcula el promedio que se desea comparar.
La comparacin de medias entre dos grupos (t de Student) y la comparacin entre tres o ms grupos (Anova de un factor).
En esta diapositiva, se encuentran las dos tcnicas basadas en el modelo de distribucin de probabilidad chi-cuadrado.
1. 2. Chi-cuadrado para una muestra. Chi cuadrado para la asociacin bivariada.
Slo la segunda tcnica chi-cuadrado es para determinar la asociacin entre dos variables. La primera es una tcnica de bondad del ajuste, ms bien similar a la tcnica binomial.
Osvaldo Blanco Socilogo Magster U. de Chile
Frmula:
Determinar si las frecuencias obtenidas (frecuencias observadas) difieren o no de las expectativas tericas (frecuencias esperadas).
Ya sea porque una teora o estudios anteriores nos indican que los datos debiesen seguir determinada distribucin. Ya sea porque tenemos cierta expectativa en cuanto a la distribucin. Ya sea porque no sabemos nada con anterioridad, pero queremos saber si las categoras de una variable a estudiar se distribuyen homogneamente.
Osvaldo Blanco Socilogo Magster U. de Chile
En este caso, E = N / K
Del men ANALIZAR(Analyce)>PRUEBAS NO PARAMTRICAS (Nonparametric Test)>CHI-CUADRADO(Chi-Square).... Se obtiene este cuadro de dilogo.
Osvaldo Blanco Socilogo Magster U. de Chile
Se puede trabajar con todas las categoras o bien con algunas comprendidas dentro de los lmites fijados por un rango. Para esto ltimo, se utiliza la opcin Usar rango especificado, insertando el valor mnimo y mximo.
Ejemplo 1
Ejemplo 1:
Imaginemos que sobre la base de una muestra pretendemos estudiar las expectativas que los alumnos de E. Media de un liceo municipal (tcnicoprofesional) tienen respecto al ingreso a las Universidades tradicionales. Hacemos una encuesta y todas aquellas respuestas que tengan en comn la no expectativa de ingreso a la Universidad por razones econmicas (por tener que trabajar, por falta de recursos para pagar, etc.) las vamos a incluir de dentro de una misma categora: Sin expectativas de ingreso debido a razones econmicas. Incluiremos en la categora Sin expectativas de ingreso debido a razones pedaggicas a todas aquellas razones que sean de mal rendimiento, mala conducta, sobre-edad, baja autoestima, poca fe en su puntaje PSU, etc. Por ltimo, una tercera categora incluir a aquellos alumnos que s creen que van a llegar a la Universidad (Espera llegar a la Universidad).
Ejemplo 1:
Paralelamente, imaginemos que conocemos de antemano la posible distribucin que puedan tener los datos, ya que existen estudios anteriores que han investigado el tema.
Por ejemplo, podemos querer analizar si el colegio que estudiamos se aleja de la distribucin de la poblacin de liceos municipales tcnico-profesional de la regin de Valparaso. En funcin de este conocimiento previo, sabemos que las expectativas de ingreso a la Universidad no se distribuyen por igual en los alumnos de liceos pblicos de modalidad tcnico-profesional de la regin. Esta distribucin previa cumple el rol de frecuencias esperadas.
Ejemplo 1:
Es claro entonces que estamos ante un problema de bondad del ajuste, entre las frecuencias observadas y las frecuencias esperadas. Las frecuencias esperadas (dadas por el estudio anterior) se deben expresar en proporciones: 0.65 (65%) para Sin expectativas de ingreso debido a razones econmicas. 0.25 (25%) para Sin expectativas de ingreso debido a razones pedaggicas 0.7 (7%) para Espera ingresar a la Universidad.
Osvaldo Blanco Socilogo Magster U. de Chile
Ejemplo 1:
Para este caso, la hiptesis nula estar formulada de la siguiente manera:
H0: las expectativas de ingreso a la Universidad siguen la distribucin conocida con anterioridad.
Ejemplo 1:
Expectativas Universidad colegios municipales Frequency Valid Sin expectativas de ingreso_razones econm icas Sin expectativas de ingreso_razones pedaggicas Es pera ingresar a la Universidad Total System 90 Percent 69,8 Cumul ative Percent 71,4
27 9 126 3 129
92,9 100,0
Un anlisis de frecuencia de la variable nos indica que nuestra muestra sigue ms o menos esta forma de distribuirse...pero, cmo estar seguros? Realizamos el anlisis en SPSS y obtendremos 2 cuadros con resultados. El primero es el siguiente:
Osvaldo Blanco Socilogo Magster U. de Chile
Ejemplo 1:
Expectativas Universidad colegios municipales Observed N Sin expectativas de ingreso_razones econm icas Sin expectativas de ingreso_razones pedaggicas Es pera ingresar a la Universidad Total 90 Expected N 84,4 Residual 5,6
27 9 126
32,5 9,1
-5,5 -,1
Fjense una cosa: las frecuencias esperadas que dbamos gracias a los estudios anteriores estaban expresadas en proporciones (65%, 25% y 7%). La tabla que se observa no trabaja con porcentajes, pues el chicuadrado se calcula en base a frecuencias. Como dijimos, los residuales nos indican la simple diferencia (resta) entre la frecuencia observada de cada categora y la frecuencia esperada. Los signos indican cul frecuencia (esperada u observada) es mayor.
Osvaldo Blanco Socilogo Magster U. de Chile
Ejemplo 1:
Si calculsemos el valor de chi-cuadrado manualmente en base a la frmula lo haramos del siguiente modo:
(9 9.1)2 9.1
(5.5)2 32.5
x2 = 1, 302
Ejemplo 1:
Te st S tatistics Ex pec tativas Univers idad colegios munici pales 1,291 2 ,524
Chi-Squarea df As ymp. Si g.
a. 0 c ells (,0% ) have expected frequencies les s than 5. The minimum ex pec ted cell frequenc y is 9,1.
Una segunda tabla que entrega el SPSS es la del contraste Chi-cuadrado. Fjense la diferencia en el clculo del Chi-cuadrado a la antigua (1,302) que el calculado por el SPSS (1,291). La diferencia est en cmo consideramos los decimales.
Ejemplo 1:
Te st S tatistics Ex pec tativas Univers idad colegios munici pales 1,291 2 ,524
Chi-Squarea df As ymp. Si g.
a. 0 c ells (,0% ) have expected frequencies les s than 5. The minimum ex pec ted cell frequenc y is 9,1.
Al ver el valor de la Significacin de la prueba (Asymp. Sig. = 0,524) podemos decir que aceptamos la H0.
Ejemplo 2
Ejemplo 2
Cuando no contamos con el conocimiento de las frecuencias esperadas realizamos un contraste chi-cuadrado calculando: E = N / K. Como el SPSS tiene por defecto esta funcin de valores esperados iguales, slo ingresamos la variable a analizar al campo Contrastar variables y hacemos clic en Aceptar.
Osvaldo Blanco Socilogo Magster U. de Chile
Ejemplo 2
Imaginemos que hacemos un estudio exploratorio de estratificacin social en una comuna X de la ciudad Y. Hemos estratificado a los pobres de la comuna en 4 categoras, pero no tenemos idea respecto de cmo se distribuyen. De esta manera, estableceremos que las frecuencias esperadas se distribuirn por igual en las 4 categoras o estratos.
Ejemplo 2
Ejemplo 2
Clase Social Encuestado Observed N Pequeo comerciantes_ em pres as de servicios Obrero Cesantes_ trabajadores ocasionales Lumpen Total 35 38 33 23 129 Expected N 32,3 32,3 32,3 32,3 Residual 2,8 5,8 ,8 -9,3
En primer lugar, se obtiene esta primera tabla de resultados en SPSS. Las frecuencias esperadas se han calculado sobre la base de E = N / K, lo que hace que las frecuencias esperadas sean iguales. El anlisis en torno a los residuales es una primera aproximacin; la mayor diferencia se encuentra en el estrato Lumpen, (Residual: 9.3, lo que nos dice que lo observado es menor que lo esperado).
Osvaldo Blanco Socilogo Magster U. de Chile
Ejemplo 2
Test Statistics Cl ase Soci al Encues tado 3,930 3 ,269
a. 0 cells (,0%) have expected frequenci es less than 5. The mini mum expected cell frequency i s 32,3.
La significacin de chi-cuadrado es muchsimo ms alta que (0,05), por tanto aceptamos H0.
Conclusiones
Qu es lo que nos demuestra todo lo que hasta aqu hemos visto? Principalmente que la prueba chi-cuadrado es una prueba de la bondad del ajuste (qu tan bueno se ajusta lo observado en mi muestra respecto de lo esperado). Por lo general, en las pruebas de bondad del ajuste (cf. binomial y chi-cuadrado para una muestra) lo que queremos es que nuestro resultado no sea significativo, es decir, buscamos aceptar H0. Ello puede llevarnos a pecar de cometer el error tipo I, es decir, rechazar la hiptesis nula cuando es verdadera. En estos casos, se debiera trabajar con niveles de significacin altos (0,2), sobre todo por que 0,05 parece ser ms apropiado para otro tipo de contrastes (donde lo que buscamos no es aceptar H0, sino rechazarla) .
Osvaldo Blanco Socilogo Magster U. de Chile
Asociacin bivarida
Cuando hablamos de asociacin bivariada estamos diciendo que existen dos variables que afectan mutuamente sus distribuciones. La asociacin entre 2 variables muchas veces viene precedida de nuestro marco terico, pues en l hemos relacionado al menos 2 variables, sealando a una como variable independiente y a otra como variable dependiente. Existen distintos tipos de estadsticos que nos ayudan al estudio de la asociacin de las variables en las muestras. Si estamos en el caso de variables cuantitativas continuas los estadsticos apropiados sern la correlacin producto momento de Pearson y el coeficiente de regresin. Si las dos variables son cualitativas (nominal u ordinal), el contraste de chi-cuadrado es el ms apropiado y el que ms se usa. As como los coeficientes relacionados a ste (coeficiente de contingencia, el coeficiente Lambda y los coeficientes Phi y V de Cramer,). Las variables ordinales tambin tienen sus propios coeficientes de asociacin: Gamma de Goodman y Kruskal, d de Somers, Tau-a de Kendall, Tau-b de Kendall, rho de Spearman, entre otros.
Osvaldo Blanco Socilogo Magster U. de Chile
Asociacin bivariada
Las asociaciones bivariadas se pueden estudiar a partir de los siguientes criterios (Garca ferrando):
La existencia de la asociacin La fuerza de la asociacin La direccin de la asociacin. La naturaleza de la asociacin.
Los distintos estadsticos existentes se emplean para determinar cada uno de estos criterios. En este sentido, la prueba de hiptesis basada en el estadstico chi-cuadrado (x2) nos seala si existe o no asociacin bivariada. Es decir, el x2 nos da cuenta de la existencia de la asociacin.
Osvaldo Blanco Socilogo Magster U. de Chile
Es t Cesante Total
S No
Lo que hacemos en la prueba de chi-cuadrado de asociacin es probar si existe una relacin de asociacin o, por el contrario, si existe independencia entre 2 variables de escala nominal u ordinal.
Osvaldo Blanco Socilogo Magster U. de Chile
H0 = No existe asociacin entre las dos variables (son variables independientes) H1 = Existe asociacin entre las dos variables (ambas variables estn relacionadas).
La H0 dir que lo que observamos en la muestra se debe al azar y que cualquier asociacin entre las variables no es estadsticamente significativa. En cambio, la H1 nos dir que lo que observamos en nuestra muestra s es estadsticamente significativo y, por tanto, no se debe a un error causado por el azar.
Osvaldo Blanco Socilogo Magster U. de Chile
4.
El nivel de medicin de ambas variables es nominal u ordinal (si estuviramos trabajando variables intervalo o razn debemos reducirlas a ordinales). La prueba contrasta la H0, la cual dice que las dos variables son independientes. Cuanto mayor es el estadstico x2 y menor su grado de significacin (Asymp.Sig) ms probable que exista relacin/dependencia entre ambas variables, por tanto, mayor probabilidad de rechazar la H0. Admitiremos una relacin significativa entre ambas variables (esto es, rechazaremos H0 y aceptaremos H1) cuando el grado de significacin del estadstico x2 obtenido en la prueba sea menor que nuestro nivel de significacin (0.05 0.01).
Osvaldo Blanco Socilogo Magster U. de Chile
Para la siguiente tabla, la frecuencia observada de la casilla jovecesante es 45, mientras que su frecuencia esperada sera:
Count
fe =
319
84
= 55.36
484
Es t Cesante Total
S No
1. 2. 3. 4. 5. 6. Calcular para cada casilla de frecuencia observada su correspondiente frecuencia esperada. Luego, restar la frecuencia observada con la frecuencia esperada correspondiente. Elevar el resultado al cuadrado. Dividir el resultado por la frecuencia esperada. Sumar cada resultado de la divisin de la resta entre O y E al cuadrado por E. Calcular los grados de libertad (gl), el nivel de significacin y determinar si el valor x2 obtenido es o no significativo.
Esto quiere decir que para el caso de la tabla recin expuesta obtendremos los siguientes clculos:
x2 = 7
(O E) 2 E
Por lo tanto, el valor de x2 ser igual a 2.03 + 3.75 + 0.4 + 0.82 = 7 El siguiente paso sera calcular los grados de libertad (gl) mediante la frmula: gl = (filas 1) (columnas 1) En nuestro caso, los grados de libertad son: gl = (2 1) (2 1) = 1 Luego, deberamos ir a la tabla de distribucin de chi-cuadrado que vienen en todos los libros de estadstica eligiendo con anterioridad nuestro nivel de significacin (0.05 0.01). Si nuestro valor calculado de x2 es igual o superior al de la tabla concluimos que las variables estaran relacionadas (x2 fue significativa).
Pearson Chi-Square Continuity Correction a Likelihood Ratio Fis her's Exact Test Linear-by-Linear As sociation N of Valid Cases
.007
a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The m inim um expected count is 28.64.
Lo que s debe aprender es el contraste en SPSS. De todos los estadsticos y sus respectivas significancias Ud. debe preocuparse del Pearson Chi-Square (Chi-cuadrado de Pearson), el cual tiene un valor de 6.886, un grado de libertad y una significancia o probabilidad de cometer el error tipo I de 0.009 (0.9%) Como 0.009 es menor que 0.05 (e incluso menor que 0.01) concluimos que la edad y el estar cesante estn relacionados. Es decir, rechazamos H0 pues 0.009 es menor que el nivel de significacin previamente establecido (0.05).
Osvaldo Blanco Socilogo Magster U. de Chile
Pearson Chi-Square Continuity Correction a Likelihood Ratio Fis her's Exact Test Linear-by-Linear As sociation N of Valid Cases
.007
a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 28.64.
Volvemos a repetir: en el presente ejemplo la significacin del valor del x2 obtenido (Asymp.Sig. 2 sided = 0.009) es menor que 0,05. Cuando la significacin de nuestro valor x2 obtenido es menor que el nivel de significacin previamente establecido por nosotros, entonces rechazamos H0 (por tanto, aceptamos H1 y concluimos que existe asociacin bivariada). En cambio, cuando la significacin de nuestro valor x2 obtenido es mayor que el nivel de significacin previamente establecido por nosotros, entonces aceptamos H0 (por tanto, concluimos que no existe asociacin bivariada o, lo que es lo mismo, ambas variables son independientes).
Osvaldo Blanco Socilogo Magster U. de Chile
No debe existir ms de un 20% de casillas inferiores a 5. En otras palabras, se aceptan casillas menores a 5, siempre que stas no alcancen ms de 20% del total. Por otra parte, por ningn motivo puede haber una casilla con una frecuencia esperada inferior a 1.
Pearson Chi-S quare Lik elihood Rati o Linear-by-Linear As soc iation N of V alid Cases
a. 13 cell s (38.2% ) have expected count less t han 5. The mi nimum expected count is .17.
Osvaldo Blanco Socilogo Magster U. de Chile
Total
Count % of Total Count % of Total Count % of Total Count % of Total Count % of Total
De esta forma, la lectura de la tabla de contingencia nos seala que 10.9% del total de alumnos que tienen padres sin estudios que viven en zonas rurales. Mientras eso sucede, en la zona urbana no se encuentran casos de padres sin estudios. Otra relacin interesante de observar en este ejemplo ficticio, es que los padres que slo tienen una escolaridad de E. Bsica son el doble en las zonas rurales (25.1%) respecto de las urbanas (12.6%), cuestin que se invierte de manera notable cuando el nivel de escolaridad es la E. Media, donde apenas un 1.7% de padres rurales llegan a este nivel frente a 32.6% de padres residentes en zonas urbanas. Por ltimo, no existen padres residentes en zonas rurales que hayan logrado llegar a la E.superior, mientras que un 17.1% de los padres de zonas urbanas tienen este nivel de escolaridad. Osvaldo Blanco Socilogo Magster U. de Chile
Todo ello nos llevara concluir que existira una diferencia significativa entre vivir en determinada zona (urbano rural) y alcanzar determinado nivel educativo (E. Bsica, E. Media, E. Superior). En este sentido, podramos decir que la zona de residencia es una variable independiente que afecta la distribucin del nivel educativo (variable dependiente). No obstante, cabe preguntarse: Podemos estar seguros de que estadsticamente hablandohay una relacin entre el vivir en una determinada zona y alcanzar determinado nivel de estudios?
Osvaldo Blanco Socilogo Magster U. de Chile
Total
Count % of Total Count % of Total Count % of Total Count % of Total Count % of Total
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 7.17.
Significacin del x2 obtenido. Este significacin se compara con el nivel de significacin previamente establecido por el investigador (por lo general es 0,05 0,01).
Todo el anlisis de la tabla de contingencia nos permite dar cuenta de una hiptesis: la zona de residencia afecta la distribucin del nivel educativo.
Por otra parte, sabemos que en todas las pruebas de hiptesis (chicuadrado tambin) la hiptesis que se somete a prueba es la hiptesis nula (H0).
Recordemos que la H0 sostiene que las variables independientes (no existe asociacin bivariadas).
Osvaldo Blanco Socilogo Magster U. de Chile
son
Chi-Square Tests Value 100.431a 124.085 175 df 3 3 As ymp. Sig. (2-sided) .000 .000
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 7.17.
Para someter a contraste la H0 vemos la significacin del chicuadrado obtenido (0.000). Claramente es menor que nuestro nivel de significacin (0,05 e, incluso, menor que 0,01).
Imaginemos que estamos estudiando si existe relacin entre la edad (joven adulto) y el tipo de religin profesada (catlica evanglica).
Osvaldo Blanco Socilogo Magster U. de Chile
Pearson Chi-Square Continuity Correction a Likelihood Ratio Fis her's Exact Test Linear-by-Linear As soci ation N of Valid Cases
.149
a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The m inim um expected count is 32.28.
Independiente de la lectura de la tabla de contingencia, vmonos inmediatamente al contraste propiamente tal. Vemos que la significancia del valor chi-cuadrado obtenido es 0.244. En tanto 0.244 es claramente ms alto que 0,05 tenemos una probabilidad muy alta de cometer el error tipo I si nos atrevemos a rechazar H0. De hecho, la probabilidad de cometer el error tipo I es muy alta (24.4%).
Por lo mismo, aceptamos H0 y concluimos que las dos variables son indpendientes.
Osvaldo Blanco Socilogo Magster U. de Chile
Para obtener una tabla de contingencia y un contraste chi-cuadrado de asociacin debemos ir al men Analizar (Analyce) Estadsticos Descriptivos (Descriptive Statistics) Tablas de contingencia... (Crosstabs...). Obtendr el presente cuadro de dilogo.
Osvaldo Blanco Socilogo Magster U. de Chile
Pase las dos variables en Filas y Columnas, segn corresponda. Luego, haga clic en la pestalla Casillas de la parte de debajo del cuadro.
Elija Frecuencias Observadas y Esperadas. Tambin debiera elegir porcentajes en los 3 sentidos que vimos hoy (Fila, Columna, Total) Por ltimo, en cuanto a los residuos, haga clic en No tipificados. ....Continuar...
Osvaldo Blanco Socilogo Magster U. de Chile
Volver a la ventana de las tablas de contingencia. Ahora aprete en la pestaa Estadsticos ubicada en la parte de abajo del cuadro.
Osvaldo Blanco Socilogo Magster U. de Chile
EJEMPLO
SPSS nos entrega 3 tablas de resultados. La 1 es un resumen que nos muestra el valor total N y los casos missing La 2 tabla es la tabla de contingencia. Aqu tenemos los tres sentidos (marginal de filas, columnas y total) que aprendimos a leer. Tambin estn los residuales.
educac in bsi ca
educac in media
educac in superior
Total
Count Ex pec ted Count % within E STUDIOS QUE CURS A % within S EXO % of Total Residual Count Ex pec ted Count % within E STUDIOS QUE CURS A % within S EXO % of Total Residual Count Ex pec ted Count % within E STUDIOS QUE CURS A % within S EXO % of Total Residual Count Ex pec ted Count % within E STUDIOS QUE CURS A % within S EXO % of Total
SE XO HOMB RE MUJER 18 21 17.2 21.8 46.2% 23.4% 10.3% .8 39 36.5 47.0% 50.6% 22.3% 2.5 20 23.3 37.7% 26.0% 11.4% -3. 3 77 77.0 44.0% 100.0% 44.0% 53.8% 21.4% 12.0% -.8 44 46.5 53.0% 44.9% 25.1% -2. 5 33 29.7 62.3% 33.7% 18.9% 3.3 98 98.0 56.0% 100.0% 56.0%
Total 39 39.0 100.0% 22.3% 22.3% 83 83.0 100.0% 47.4% 47.4% 53 53.0 100.0% 30.3% 30.3% 175 175.0 100.0% 100.0% 100.0%
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 17.16.
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 17.16.
Significacin del x2 obtenido. Esta significacin se compara con el nivel de significacin previamente establecido por el investigador (por lo general es 0,05 0,01).
En el presente ejemplo la significacin del valor del x2 obtenido (Asymp.Sig. 2 sided = 0.544) es mayor que 0,05. Por lo tanto, en este ejemplo acepto H0. Cuando la significacin de nuestro valor x2 obtenido es mayor que el nivel de significacin previamente establecido por nosotros, entonces aceptamos H0 (por tanto, concluimos que no existe asociacin bivariada o, lo que es lo mismo, ambas variables son independientes). Cuando la significacin de nuestro valor x2 obtenido es menor que el nivel de significacin previamente establecido por nosotros, entonces rechazamos H0 (por tanto, aceptamos H1 y concluimos que existe asociacin bivariada).
Osvaldo Blanco Socilogo Magster U. de Chile
Anlisis post-hoc de x2
RESIDUOS: Son la diferencia (resta) entre las frecuencias observadas (fo) y las frecuencias esperadas (fe) en cada casilla.
Frecuencia observada Frecuencia esperada
sexo masculino femenino 50 121 44.3 126.7 5.7 -5. 7 57 185 62.7 179.3 -5. 7 5.7 107 306 107.0 306.0 Total 171 171.0 242 242.0 413 413.0
No
Total
Count Ex pec ted Count Residual Count Ex pec ted Count Residual Count Ex pec ted Count
Residuo
En este ejemplo, la casilla masculino-cesante tiene una frecuencia observada de 50, mientras que la frecuencia que cabra esperar en el caso de que sexo y cesante no estuvieran asociadas (frecuencia esperada) es 44,3. El residuo para la casilla masculino-cesante es 5.7 (50 44.3 = 5.7)
Osvaldo Blanco Socilogo Magster U. de Chile
Anlisis post-hoc de x2
En el caso de que el valor x2 obtenido sea significativo, los residuos nos indican qu casillas contribuyen en mayor grado al valor del estadstico. Cuanto mayor es el valor de los residuos mayor es la probabilidad de que una determinada combinacin de valores de las variables (una casilla) sea significativa (es decir, exprese asociacin bivariada). Esto porque el valor de un residuo expresa la diferencia entre lo observado (fo) y lo que cabra esperar en caso de independencia bivariada (fe).
Osvaldo Blanco Socilogo Magster U. de Chile
Anlisis post-hoc de x2
ESTUDIOS QUE CURSA educacin bsica Count Expected Count Residual Adjusted Residual Count Expected Count Residual Adjusted Residual Count Expected Count Residual Adjusted Residual Count Expected Count HBITAT RURAL URBANO 5 34 14.7 24.3 -9.7 9.7 -3.6 3.6 44 39 31.3 51.7 12.7 -12.7 4.0 -4.0 17 36 33.0 20.0 -3.0 3.0 -1.0 1.0 66 109 66.0 109.0 Total 39 39.0
educacin media
83 83.0
educacin superior
53 53.0
Total
175 175.0
La forma ms sencilla de proceder es inspeccionar visualmente a tabla, identificando los residuos ms altos (positivos y negativos). En este caso, podemos ver que la asociacin se concentra en 4 casillas especficas:
urbano-educacin media (residuo = 12.7) urbano-educacin bsica (residuo = 9.7) rural-educacin bsica (residuo = 9.7) rural-educacin media (residuo = 12.7)
Anlisis post-hoc de x2
ESTUDIOS QUE CURSA educacin bsica Count Expected Count Residual Count Expected Count Residual Count Expected Count Residual Count Expected Count HBITAT RURAL URBANO 5 34 14.7 24.3 -9.7 9.7 44 39 51.7 31.3 12.7 -12.7 17 36 20.0 33.0 -3.0 3.0 109 66 109.0 66.0 Total 39 39.0 83 83.0 53 53.0 175 175.0
educacin media
educacin s uperior
Total
Se puede sealar que el valor x2 significativo (es decir, que indica asociacin bivariada) en realidad indica la asociacin de 4 cruces de categoras especficas (4 casillas). Gardner (2003: 168) propone una forma de cuantificar qu tanto contribuye cada uno de las casillas al valor x2 global.
Osvaldo Blanco Socilogo Magster U. de Chile
Anlisis post-hoc de x2
Para ello hay que seguir los siguientes pasos:
1. Residuo de cada casilla elevado al cuadrado 2. Dividir cada resultado por su respectiva frecuencia esperada 3. Para casilla tener un resultado, valor que se debe dividir a su vez por el valor x2 global
Osvaldo Blanco Socilogo Magster U. de Chile
Anlisis post-hoc de x2
Chi-Square Tests Value 19.275 a 20.787 175 df 2 2 As ymp. Sig. (2-sided) .000 .000 Pearson Chi-Square Likelihood Ratio N of Valid Cases
educacin bsica
educacin media
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 14.71.
educacin s uperior
Total
Count Expected Count Residual Count Expected Count Residual Count Expected Count Residual Count Expected Count
HBITAT RURAL URBANO 5 34 14.7 24.3 -9.7 9.7 44 39 31.3 51.7 12.7 -12.7 17 36 20.0 33.0 -3.0 3.0 66 109 66.0 109.0
Anlisis post-hoc de x2
Chi-Square Tests Value 19.275 a 20.787 175 df 2 2 As ymp. Sig. (2-sided) .000 .000
educacin bsica
educacin media
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 14.71.
educacin s uperior
Total
Count Expected Count Residual Count Expected Count Residual Count Expected Count Residual Count Expected Count
HBITAT RURAL URBANO 5 34 14.7 24.3 -9.7 9.7 39 44 31.3 51.7 12.7 -12.7 36 17 20.0 33.0 -3.0 3.0 66 109 66.0 109.0
Valor x2 global
Anlisis post-hoc de x2
Chi-Square Tests Value 19.275 a 20.787 175 df 2 2 Asymp. Sig. (2-sided) .000 .000
educacin bsica
educacin media
educacin s uperior
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 14.71.
Total
Count Expected Count Residual Count Expected Count Residual Count Expected Count Residual Count Expected Count
HBITAT RURAL URBANO 5 34 14.7 24.3 -9.7 9.7 44 39 31.3 51.7 12.7 -12.7 17 36 20.0 33.0 3.0 -3.0 66 109 66.0 109.0
3 PASO:
El resultado de cada casilla debe dividirse por el valor x2 global.
6.4/19.275 3.8/19.275 5.1/19.275 3.1/19.275 = = = = 0.33 (La casilla Rural-Educ.Bsica explica el 33% de la x2 global) 0.197 (La casilla Urbano-Educ.Bsica explica el 19.7% de la x2 global) 0.26 (La casilla Rural-Educ.Media explica el 26% de la x2 global) 0.16 (La casilla Urbano-Educ.Media explica el 16% de la x2 global)
De todo esto podemos concluir que la zona rural y su cruce con las categoras de Educacin Bsica y Media aporta el 59% del valor x2 global.
Osvaldo Blanco Socilogo Magster U. de Chile
Hemos dicho que el estadstico x2 slo seala si existe o no asociacion bivariada, pero nada nos dice respecto de la magnitud o fuerza de la asociacin.
Para ello usamos el coeficiente de contingencia, la phi (fi) y V de Cramer, Lambda, coeficiente de incertidumbre, Gamma, d de Somers, Tau-b y Tau-c de Kendall.
Osvaldo Blanco Socilogo Magster U. de Chile
Los coeficientes que vemos aqu son complementarios al chicuadrado. Son tiles cuando sabemos que existe asociacin (gracias al chi-cuadrado), pero queremos indagar sobre la intensidad o fuerza de la asociacin. Algunos son valores que oscilan de 0 a 1, mientras que otros oscilan de 1 a +1. En todos los casos, 0 = independencia de las variables.
No se va a profundizar aqu el mtodo RPE. Para ello cf. Garca Ferrando, op.cit: 233-256.
Slo en los casos de variables ordinales podemos preguntarnos por la direccin de la asociacin, pues en variables de este tipo los datos se jerarquizan de > a <.
La direccin nos dir si los valores de las categoras altas se corresponden con valores de la otra variable pertenecientes a categoras tambin altas (y viceversa con los valores bajos) o si, por el contrario, los valores altos de una variable hacen que aumenten los valores bajos de la otra. Cuando el primer caso suceda (valores altos de la independiente producen valores altos en la dependiente y, viceversa, los valores bajos de una se corresponden con valores bajos de la otra) se hablar de asociacin positiva, mientras que cuando los valores altos de la independiente generen un aumento de los valores bajos (y viceversa) en la dependiente se hablar de asociacin negativa.
Osvaldo Blanco Socilogo Magster U. de Chile
De esta manera, deberemos contrastar el valor de C que obtenemos con el valor C mx para poder establecer si estamos ante una fuerte o dbil asociacin. Al respecto, se puede sealar que para diferentes tablas cuadradas los valores C mx sern:
Tablas Tablas Tablas Tablas 2x2: 3x3: 4x4: 5x5: 0,707. 0,8165. 0,87. 0,89.
En definitiva, este problema del valor mximo en el coeficiente C hace que no sirva para comparar tablas de distinto tamao.
Osvaldo Blanco Socilogo Magster U. de Chile
BIBLIOGRAFA
Garca Ferrando, Manuel (1999): Socioestadstica. Introduccin a la estadstica en sociologa, pgs. 294-298 Gardner (2003): Estadstica para Psicologa usando SPSS para Windows, pgs. 154-172 Ferrn, Magdalena (2001): SPSS para Windows. Anlisis estadstico, pgs. 49-56.