8 - Chi Cuadrado 1 Muestra y Asociación Bivariada

SOCIOESTADSTICA Carrera de Sociologa
TEMAS:
Chi-cuadrado para una muestra. Chi cuadrado para la asociacin bivariada. Otros coeficientes de asociacin para tablas de Contingencia.
EMPLEO DE LAS PRUEBAS DE DECISIN ESTADSTICA: PRUEBAS DE HIPTESIS BIVARIADAS

La prueba del Chi Cuadrado para la independencia de dos variables:
Objetivos de la prueba y nivel de medicin de las variables. Prueba Chi Cuadrado para dos muestras independientes (Post Hoc chi-cuadrado). Coeficientes complementarios. Objetivos de la prueba y nivel de medicin de las variables: diferencias y relaciones entre prediccin (regresin) y asociacin (correlacin). Recta de regresin y diagrama de dispersin. Interpretacin de r de Pearson (matriz de correlaciones) Coeficiente de determinacin (r2)
Pruebas para el estudio de la asociacin bivariada
Regresin Lineal y Correlacin con r de Pearson.
Pruebas para la comparacin de medias entre al menos 2 grupos.
Prueba de comparacin de medias: la prueba t de Student.

Anlisis de varianza de un factor (Anova):

Objetivos de la prueba y nivel de medicin de las variables. Tipos de pruebas t de Student para dos muestras: T de Student para muestras relacionadas. Objetivos de la prueba y nivel de medicin de las variables. Interpretacin Anlisis PostHoc (Scheff y Tukey)
Osvaldo Blanco Socilogo Magster U. de Chile
Vamos a ver en esta unidad entonces la idea de ASOCIACIN BIVARIADA as como la de COMPARACIN DE MEDIAS entre dos o ms grupos. Estas tcnicas sirven para dos objetivos distintos, pero tienen en comn el hecho de ocupar siempre 2 variables. ASOCIACIN BIVARIADA: una variable asociada a otra.
Se ocupa la idea de que hay una variable independiente que est asociada a otra variable dependiente (prueba chi-cuadrado) o bien que dicha variable independiente genera efectos en la variable independiente que pueden ser medidos o cuantificados (r de Pearson). La regresin tambin habla de asociacin, pero en sentido de prediccin de los valores de la variable dependiente en funcin de los valores que adquiere la variable independiente.
COMPARACIN DE MEDIAS: una variable independiente cualitativa establece dos o ms grupos y una variable dependiente que es cuantitativa y a la cual se calcula el promedio que se desea comparar.
La comparacin de medias entre dos grupos (t de Student) y la comparacin entre tres o ms grupos (Anova de un factor).
En esta diapositiva, se encuentran las dos tcnicas basadas en el modelo de distribucin de probabilidad chi-cuadrado.
1. 2. Chi-cuadrado para una muestra. Chi cuadrado para la asociacin bivariada.
Slo la segunda tcnica chi-cuadrado es para determinar la asociacin entre dos variables. La primera es una tcnica de bondad del ajuste, ms bien similar a la tcnica binomial.
PRIMER TEMA : Prueba Chi-cuadrado para una muestra en SPSS

Prueba Chi-cuadrado para una muestra

Hoy vamos a ver el uso del estadstico x2 (Chicuadrado). Lo usamos cuando analizamos frecuencias o proporciones en una muestra (una variable). El nivel de medicin de la variable debe ser nominal u ordinal, pues el x2 se calcula en base a las categoras de la variable (2 o ms categoras) Ms especficamente, el x2 se calcula en base a a las frecuencias de cada categora. En general, se ocupa el contraste o prueba de hiptesis basadas en el estadstico x2 cuando estemos en dos situaciones distintas. Para ello, veamos la siguiente tipologa de pruebas Chicuadrado:
Tipologa de pruebas Chi-cuadrado

Idea central:
Frmula:
Determinar si las frecuencias obtenidas (frecuencias observadas) difieren o no de las expectativas tericas (frecuencias esperadas).
Donde O: frecuencias observadas. E: frecuencias esperadas.

De la frmula puede deducirse que cuando el valor x2 es pequeo, las diferencias entre las frecuencias observadas y esperadas (O E) sern pequeas. Si el valor de x2 es alto, las diferencias entre las frecuencias observadas y esperadas (O E) sern altas. La prueba Chi-cuadrado para una muestra es de aquellas que miden lo que se conoce como bondad del ajuste, pues se determina qu tan similar es un conjunto de frecuencias obtenidas respecto de las frecuencias que cabra esperar (frecuencias observadas respecto de las frecuencias esperadas).
Ya sea porque una teora o estudios anteriores nos indican que los datos debiesen seguir determinada distribucin. Ya sea porque tenemos cierta expectativa en cuanto a la distribucin. Ya sea porque no sabemos nada con anterioridad, pero queremos saber si las categoras de una variable a estudiar se distribuyen homogneamente.

Tal y como lo sealamos con anterioridad, mientras mayor el valor de x2, ms malo ser el ajuste entre lo observado y lo esperado. Mayores diferencias entre ambos. Cuanto mayor sea el valor de x2 mayor la probabilidad de que las frecuencias observadas no provengan de la poblacin en la que se basa la H0 (Garca Ferrando, 1999: 184).

Garca Ferrando (p.184), sostiene que: la H0 se formula de modo que establece la proporcin de personas, objetos o respuestas que pertenecen a cada una de las categoras en la poblacin supuesta (...)[por tanto] se pueden deducir de la H0 las frecuencias esperadas. Las frecuencias esperadas corresponden a las que deberan tener la tabla de frecuencias en el supuesto de cumplirse la H0. De esta forma, la H0 podr formularse de manera distinta de acuerdo a dos criterios: 1) 2) Cuando la H0 sostiene que la proporcin de casos en cada categora de la variable es la misma.
En este caso, E = N / K
Cuando la H0 especifica el nmero de observaciones esperadas.
En este caso, E = lo que dice la teora, nosotros u otro estudio.

Otros conceptos que se deben tener en cuenta son:

1. Residuos: Son las diferencias (restas) entre frecuencias observadas y esperadas. Forman parte de la frmula de clculo del x2. 2. Grados de libertad (df): Nmero de categoras (k) de la variable menos 1, esto es: k 1. Como dice Garca Ferrando (p.185), para cada valor df existe un valor diferente de Chicuadrado.
Chi-cuadrado para una muestra en SPSS
Del men ANALIZAR(Analyce)>PRUEBAS NO PARAMTRICAS (Nonparametric Test)>CHI-CUADRADO(Chi-Square).... Se obtiene este cuadro de dilogo.
Chi-cuadrado para una muestra en SPSS

Pasamos al campo Contrastar variables las variables que vamos a analizar. El SPSS calcula por defecto las frecuencias esperadas iguales, es decir, todas las categoras de la variable con una misma proporcin respecto del total de casos. Si cada categora tiene una frecuencia esperada distinta en base a un conocimiento o teora previa, se pueden ingresar las respectivas proporciones en Valores . De forma ordenada, pueden ingresarse proporciones (por ej: 0.2, 0.5, 0.3), porcentajes (ej: 20, 50, 30) o bien frecuencias absolutas (ej: 19, 41, 29)
Se puede trabajar con todas las categoras o bien con algunas comprendidas dentro de los lmites fijados por un rango. Para esto ltimo, se utiliza la opcin Usar rango especificado, insertando el valor mnimo y mximo.
Ejemplo 1
Ejemplo 1:
Imaginemos que sobre la base de una muestra pretendemos estudiar las expectativas que los alumnos de E. Media de un liceo municipal (tcnicoprofesional) tienen respecto al ingreso a las Universidades tradicionales. Hacemos una encuesta y todas aquellas respuestas que tengan en comn la no expectativa de ingreso a la Universidad por razones econmicas (por tener que trabajar, por falta de recursos para pagar, etc.) las vamos a incluir de dentro de una misma categora: Sin expectativas de ingreso debido a razones econmicas. Incluiremos en la categora Sin expectativas de ingreso debido a razones pedaggicas a todas aquellas razones que sean de mal rendimiento, mala conducta, sobre-edad, baja autoestima, poca fe en su puntaje PSU, etc. Por ltimo, una tercera categora incluir a aquellos alumnos que s creen que van a llegar a la Universidad (Espera llegar a la Universidad).
Ejemplo 1:
Paralelamente, imaginemos que conocemos de antemano la posible distribucin que puedan tener los datos, ya que existen estudios anteriores que han investigado el tema.
Por ejemplo, podemos querer analizar si el colegio que estudiamos se aleja de la distribucin de la poblacin de liceos municipales tcnico-profesional de la regin de Valparaso. En funcin de este conocimiento previo, sabemos que las expectativas de ingreso a la Universidad no se distribuyen por igual en los alumnos de liceos pblicos de modalidad tcnico-profesional de la regin. Esta distribucin previa cumple el rol de frecuencias esperadas.
Ejemplo 1:
Es claro entonces que estamos ante un problema de bondad del ajuste, entre las frecuencias observadas y las frecuencias esperadas. Las frecuencias esperadas (dadas por el estudio anterior) se deben expresar en proporciones: 0.65 (65%) para Sin expectativas de ingreso debido a razones econmicas. 0.25 (25%) para Sin expectativas de ingreso debido a razones pedaggicas 0.7 (7%) para Espera ingresar a la Universidad.
Ejemplo 1:
Para este caso, la hiptesis nula estar formulada de la siguiente manera:
H0: las expectativas de ingreso a la Universidad siguen la distribucin conocida con anterioridad.
Ejemplo 1:
Expectativas Universidad colegios municipales Frequency Valid Sin expectativas de ingreso_razones econm icas Sin expectativas de ingreso_razones pedaggicas Es pera ingresar a la Universidad Total System 90 Percent 69,8 Cumul ative Percent 71,4
27 9 126 3 129
20,9 7,0 97,7 2,3 100,0
92,9 100,0
Mis sing Total
Un anlisis de frecuencia de la variable nos indica que nuestra muestra sigue ms o menos esta forma de distribuirse...pero, cmo estar seguros? Realizamos el anlisis en SPSS y obtendremos 2 cuadros con resultados. El primero es el siguiente:
Ejemplo 1:
Expectativas Universidad colegios municipales Observed N Sin expectativas de ingreso_razones econm icas Sin expectativas de ingreso_razones pedaggicas Es pera ingresar a la Universidad Total 90 Expected N 84,4 Residual 5,6
27 9 126
32,5 9,1
-5,5 -,1
Fjense una cosa: las frecuencias esperadas que dbamos gracias a los estudios anteriores estaban expresadas en proporciones (65%, 25% y 7%). La tabla que se observa no trabaja con porcentajes, pues el chicuadrado se calcula en base a frecuencias. Como dijimos, los residuales nos indican la simple diferencia (resta) entre la frecuencia observada de cada categora y la frecuencia esperada. Los signos indican cul frecuencia (esperada u observada) es mayor.
Ejemplo 1:
Si calculsemos el valor de chi-cuadrado manualmente en base a la frmula lo haramos del siguiente modo:
(90 84.4)2 84.4 = (5.6)2 84.4 +
(27 32.5)2 32.5 + (0.1)2 9.1
(9 9.1)2 9.1
(5.5)2 32.5
= 0.371 + 0.930 + 0.001
x2 = 1, 302
Ejemplo 1:
Te st S tatistics Ex pec tativas Univers idad colegios munici pales 1,291 2 ,524
Chi-Squarea df As ymp. Si g.
a. 0 c ells (,0% ) have expected frequencies les s than 5. The minimum ex pec ted cell frequenc y is 9,1.
Una segunda tabla que entrega el SPSS es la del contraste Chi-cuadrado. Fjense la diferencia en el clculo del Chi-cuadrado a la antigua (1,302) que el calculado por el SPSS (1,291). La diferencia est en cmo consideramos los decimales.
Ejemplo 1:
Te st S tatistics Ex pec tativas Univers idad colegios munici pales 1,291 2 ,524
Chi-Squarea df As ymp. Si g.
a. 0 c ells (,0% ) have expected frequencies les s than 5. The minimum ex pec ted cell frequenc y is 9,1.
Al ver el valor de la Significacin de la prueba (Asymp. Sig. = 0,524) podemos decir que aceptamos la H0.
Ejemplo 2
Ejemplo 2
Cuando no contamos con el conocimiento de las frecuencias esperadas realizamos un contraste chi-cuadrado calculando: E = N / K. Como el SPSS tiene por defecto esta funcin de valores esperados iguales, slo ingresamos la variable a analizar al campo Contrastar variables y hacemos clic en Aceptar.
Ejemplo 2
Imaginemos que hacemos un estudio exploratorio de estratificacin social en una comuna X de la ciudad Y. Hemos estratificado a los pobres de la comuna en 4 categoras, pero no tenemos idea respecto de cmo se distribuyen. De esta manera, estableceremos que las frecuencias esperadas se distribuirn por igual en las 4 categoras o estratos.
Ejemplo 2
En este caso, la H0 se expresa de la siguiente manera:

H0 : la proporcin de
casos en cada estrato de pobreza es la misma.
Ejemplo 2
Clase Social Encuestado Observed N Pequeo comerciantes_ em pres as de servicios Obrero Cesantes_ trabajadores ocasionales Lumpen Total 35 38 33 23 129 Expected N 32,3 32,3 32,3 32,3 Residual 2,8 5,8 ,8 -9,3
En primer lugar, se obtiene esta primera tabla de resultados en SPSS. Las frecuencias esperadas se han calculado sobre la base de E = N / K, lo que hace que las frecuencias esperadas sean iguales. El anlisis en torno a los residuales es una primera aproximacin; la mayor diferencia se encuentra en el estrato Lumpen, (Residual: 9.3, lo que nos dice que lo observado es menor que lo esperado).
Ejemplo 2
Test Statistics Cl ase Soci al Encues tado 3,930 3 ,269
Chi-Square a df As ymp. Sig.
a. 0 cells (,0%) have expected frequenci es less than 5. The mini mum expected cell frequency i s 32,3.
La significacin de chi-cuadrado es muchsimo ms alta que (0,05), por tanto aceptamos H0.
Conclusiones
Qu es lo que nos demuestra todo lo que hasta aqu hemos visto? Principalmente que la prueba chi-cuadrado es una prueba de la bondad del ajuste (qu tan bueno se ajusta lo observado en mi muestra respecto de lo esperado). Por lo general, en las pruebas de bondad del ajuste (cf. binomial y chi-cuadrado para una muestra) lo que queremos es que nuestro resultado no sea significativo, es decir, buscamos aceptar H0. Ello puede llevarnos a pecar de cometer el error tipo I, es decir, rechazar la hiptesis nula cuando es verdadera. En estos casos, se debiera trabajar con niveles de significacin altos (0,2), sobre todo por que 0,05 parece ser ms apropiado para otro tipo de contrastes (donde lo que buscamos no es aceptar H0, sino rechazarla) .
SEGUNDO TEMA: Tablas de contingencia y asociacin bivariada.
Asociacin bivarida
Cuando hablamos de asociacin bivariada estamos diciendo que existen dos variables que afectan mutuamente sus distribuciones. La asociacin entre 2 variables muchas veces viene precedida de nuestro marco terico, pues en l hemos relacionado al menos 2 variables, sealando a una como variable independiente y a otra como variable dependiente. Existen distintos tipos de estadsticos que nos ayudan al estudio de la asociacin de las variables en las muestras. Si estamos en el caso de variables cuantitativas continuas los estadsticos apropiados sern la correlacin producto momento de Pearson y el coeficiente de regresin. Si las dos variables son cualitativas (nominal u ordinal), el contraste de chi-cuadrado es el ms apropiado y el que ms se usa. As como los coeficientes relacionados a ste (coeficiente de contingencia, el coeficiente Lambda y los coeficientes Phi y V de Cramer,). Las variables ordinales tambin tienen sus propios coeficientes de asociacin: Gamma de Goodman y Kruskal, d de Somers, Tau-a de Kendall, Tau-b de Kendall, rho de Spearman, entre otros.
Asociacin bivariada
Las asociaciones bivariadas se pueden estudiar a partir de los siguientes criterios (Garca ferrando):
La existencia de la asociacin La fuerza de la asociacin La direccin de la asociacin. La naturaleza de la asociacin.
Los distintos estadsticos existentes se emplean para determinar cada uno de estos criterios. En este sentido, la prueba de hiptesis basada en el estadstico chi-cuadrado (x2) nos seala si existe o no asociacin bivariada. Es decir, el x2 nos da cuenta de la existencia de la asociacin.
La prueba Chi-cuadrado para la asociacin bivariada.
Tipologa de pruebas Chi-cuadrado
Prueba Chi-cuadrado para la asociacin bivariada.

Cuando construimos una tabla de contingencia precisamente lo que hacemos es cruzar 2 variables y analizar la distribucin conjunta de ambas variable en los cruces de sus distintas categoras.
Count EDAD joven adulto 45 274 39 126 84 400 Total 319 165 484
Es t Cesante Total
S No
Lo que hacemos en la prueba de chi-cuadrado de asociacin es probar si existe una relacin de asociacin o, por el contrario, si existe independencia entre 2 variables de escala nominal u ordinal.
Las Hiptesis en la prueba Prueba Chicuadrado para la asociacin bivariada.

Si tenemos en cuenta que la investigacin sociolgica viene fundamentada por un marco terico donde, por lo general, queremos contrastar una hiptesis que seala la dependencia de una variable respecto de otra, se podr decir entonces trabajamos con dos tipos de hiptesis:
H0 = No existe asociacin entre las dos variables (son variables independientes) H1 = Existe asociacin entre las dos variables (ambas variables estn relacionadas).
La H0 dir que lo que observamos en la muestra se debe al azar y que cualquier asociacin entre las variables no es estadsticamente significativa. En cambio, la H1 nos dir que lo que observamos en nuestra muestra s es estadsticamente significativo y, por tanto, no se debe a un error causado por el azar.

Cuestiones centrales de la prueba chi-cuadrado (a no olvidar):
1. 2. 3.
4.
El nivel de medicin de ambas variables es nominal u ordinal (si estuviramos trabajando variables intervalo o razn debemos reducirlas a ordinales). La prueba contrasta la H0, la cual dice que las dos variables son independientes. Cuanto mayor es el estadstico x2 y menor su grado de significacin (Asymp.Sig) ms probable que exista relacin/dependencia entre ambas variables, por tanto, mayor probabilidad de rechazar la H0. Admitiremos una relacin significativa entre ambas variables (esto es, rechazaremos H0 y aceptaremos H1) cuando el grado de significacin del estadstico x2 obtenido en la prueba sea menor que nuestro nivel de significacin (0.05 0.01).

Otros conceptos que se deben tener en cuenta son:
1. Residuos: Son las diferencias (restas) entre frecuencias observadas y esperadas. Forman parte de la frmula de clculo del x2. 2. Grados de libertad (df): Nmero de categoras (k) de la variable menos 1, esto es: k 1.

Cuando vimos la prueba chi-cuadrado para una muestra decamos que sta trabaja con las frecuencias de cada casilla, contraponiendo las frecuencias observadas con las frecuencias esperadas. En la prueba chi-cuadrado de asociacin tambin operamos con la comparacin entre las frecuencias observadas y las frecuencias esperadas. De hecho, la frmula es la misma que en la prueba Chicuadrado para una muestra, a saber:

La nocin de frecuencia esperada est relacionada con la H0 en el sentido de que son frecuencias que cabra esperar en el caso de que ambas variables no estn relacionadas, es decir, sean independientes. En este sentido, al comparar las frecuencias observadas (es decir, la distribucin de frecuencias obtenidas en mi muestra) con las frecuencias esperadas (las que cabra esperar an caso de independencia entre ambas variables), la prueba Chicuadrado establece si existen diferencias significativas. Es decir, la prueba Chi-cuadrado nos dice si las frecuencias observadas son diferentes de lo que pudiera esperarse en caso de ausencia de asociacin. Esto significa que la nocin de frecuencia esperada en este caso es la de una distribucin de absoluta independencia entre ambas variables.

Recordemos que el Chi-cuadrado se calcula como la diferencia entre lo observado y lo esperado para cada casilla o celda. La frecuencia esperada de cada casilla se calcula a travs de la siguiente frmula:
Para la siguiente tabla, la frecuencia observada de la casilla jovecesante es 45, mientras que su frecuencia esperada sera:
Count
fe =
319
84
= 55.36
484
Es t Cesante Total
S No
EDAD joven adulto 45 274 39 126 84 400
Total 319 165 484
Prueba Chi-cuadrado para la asociacin bivariada
1. 2. 3. 4. 5. 6. Calcular para cada casilla de frecuencia observada su correspondiente frecuencia esperada. Luego, restar la frecuencia observada con la frecuencia esperada correspondiente. Elevar el resultado al cuadrado. Dividir el resultado por la frecuencia esperada. Sumar cada resultado de la divisin de la resta entre O y E al cuadrado por E. Calcular los grados de libertad (gl), el nivel de significacin y determinar si el valor x2 obtenido es o no significativo.
El clculo de chi-cuadrado realizado de forma manual implica los siguientes pasos:
Esto quiere decir que para el caso de la tabla recin expuesta obtendremos los siguientes clculos:
x2 = 7
Prueba chi-cuadrado sin SPSS

El estadstico x2 se calcula a partir de la suma de
(O E) 2 E
Por lo tanto, el valor de x2 ser igual a 2.03 + 3.75 + 0.4 + 0.82 = 7 El siguiente paso sera calcular los grados de libertad (gl) mediante la frmula: gl = (filas 1) (columnas 1) En nuestro caso, los grados de libertad son: gl = (2 1) (2 1) = 1 Luego, deberamos ir a la tabla de distribucin de chi-cuadrado que vienen en todos los libros de estadstica eligiendo con anterioridad nuestro nivel de significacin (0.05 0.01). Si nuestro valor calculado de x2 es igual o superior al de la tabla concluimos que las variables estaran relacionadas (x2 fue significativa).
Prueba chi-cuadrado sin SPSS

En efecto, vamos a una tabla de distribucin del estadstico chi-cuadrado y nos damos cuenta de que para que un valor x2 obtenido sea significativo a un nivel de significacin de 0.05 con 1 grado de libertad el valor debe ser igual o mayor que 3.841. Nuestro valor x2 obtenido es de 7, por tanto, es significativo o, lo que es lo mismo, existe asociacin entre ambas variables. Si bien el chi-cuadrado se calcula de la misma forma manualmente que en SPSS, la lgica del contraste de la significancia de nuestro valor x2 obtenido es muy distinto entre ambos procedimientos.
Prueba chi-cuadrado con SPSS

Por ello, el procedimiento anterior no es necesario que Ud. se lo aprenda.
Chi-Square Tests Value 6.886b 6.237 6.650 df 1 1 1 As ymp. Sig. (2-sided) .009 .013 .010 Exact Sig. (2-sided) Exact Sig. (1-sided)
Pearson Chi-Square Continuity Correction a Likelihood Ratio Fis her's Exact Test Linear-by-Linear As sociation N of Valid Cases
.011 6.871 484 1 .009
.007
a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The m inim um expected count is 28.64.
Lo que s debe aprender es el contraste en SPSS. De todos los estadsticos y sus respectivas significancias Ud. debe preocuparse del Pearson Chi-Square (Chi-cuadrado de Pearson), el cual tiene un valor de 6.886, un grado de libertad y una significancia o probabilidad de cometer el error tipo I de 0.009 (0.9%) Como 0.009 es menor que 0.05 (e incluso menor que 0.01) concluimos que la edad y el estar cesante estn relacionados. Es decir, rechazamos H0 pues 0.009 es menor que el nivel de significacin previamente establecido (0.05).
Prueba chi-cuadrado con SPSS

Chi-Square Tests Value 6.886b 6.237 6.650 df 1 1 1 As ymp. Sig. (2-sided) .009 .013 .010 Exact Sig. (2-sided) Exact Sig. (1-sided)
Pearson Chi-Square Continuity Correction a Likelihood Ratio Fis her's Exact Test Linear-by-Linear As sociation N of Valid Cases
.011 6.871 484 1 .009
.007
a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 28.64.
Volvemos a repetir: en el presente ejemplo la significacin del valor del x2 obtenido (Asymp.Sig. 2 sided = 0.009) es menor que 0,05. Cuando la significacin de nuestro valor x2 obtenido es menor que el nivel de significacin previamente establecido por nosotros, entonces rechazamos H0 (por tanto, aceptamos H1 y concluimos que existe asociacin bivariada). En cambio, cuando la significacin de nuestro valor x2 obtenido es mayor que el nivel de significacin previamente establecido por nosotros, entonces aceptamos H0 (por tanto, concluimos que no existe asociacin bivariada o, lo que es lo mismo, ambas variables son independientes).
Requisitos a satisfacer para aplicar la prueba chi-cuadrado

Tanto el estadstico x2 como su probabilidad se distorsionan si la tabla de contingencia no cumple 2 condiciones:
1. 2.
No debe existir ms de un 20% de casillas inferiores a 5. En otras palabras, se aceptan casillas menores a 5, siempre que stas no alcancen ms de 20% del total. Por otra parte, por ningn motivo puede haber una casilla con una frecuencia esperada inferior a 1.
Cuando ello sucede, el SPSS nos avisa inmediatamente:

Ch i-Sq uare Te sts Value 26.580a 27.686 11.292 484 df 16 16 1 As ymp. Si g. (2-sided) .046 .034 .001
En este ejemplo, se violaron las 2 reglas. Por tanto, el anlisis est viciado.
Pearson Chi-S quare Lik elihood Rati o Linear-by-Linear As soc iation N of V alid Cases
a. 13 cell s (38.2% ) have expected count less t han 5. The mi nimum expected count is .17.
Requisitos a satisfacer para aplicar la prueba chi-cuadrado

Eso suele ocurrir cuando el nmero de casillas es muy grande, pues muchas de stas quedan vacas o, en su defecto, con muy frecuencias observadas y esperadas muy bajas. La solucin es anular o bien agrupar categoras con el fin de obtener valores ms altos (se recomienda la recodificacin).
Ejemplo 1: Ejemplo de prueba x2 donde rechazamos H0 (existencia de asociacin bivariada)
Ejemplo de prueba x2 donde rechazamos H0 (existencia de asociacin bivariada)

Imaginemos que queremos estratificar a algunos alumnos de la universidad ARCIS Valparaso y dos de los criterios son la zona de residencia (urbano rural) y el nivel educativo de los padres (E. Bsica, E. Media, E. Superior). Tendramos entonces 2 variables (en este caso una nominal y otra ordinal): zona de residencia y nivel educativo padres.
Ejemplo de prueba x2 donde rechazamos H0

zona residencia RURAL URBANO 19 10.9% 44 22 25.1% 12.6% 3 57 1.7% 32.6% 30 17.1% 66 109 37.7% 62.3% Total 19 10.9% 66 37.7% 60 34.3% 30 17.1% 175 100.0%
Es tudios del padre
Sin estudios Educ. Bsica Educ. Media Educ. Superior
Total
Count % of Total Count % of Total Count % of Total Count % of Total Count % of Total
De esta forma, la lectura de la tabla de contingencia nos seala que 10.9% del total de alumnos que tienen padres sin estudios que viven en zonas rurales. Mientras eso sucede, en la zona urbana no se encuentran casos de padres sin estudios. Otra relacin interesante de observar en este ejemplo ficticio, es que los padres que slo tienen una escolaridad de E. Bsica son el doble en las zonas rurales (25.1%) respecto de las urbanas (12.6%), cuestin que se invierte de manera notable cuando el nivel de escolaridad es la E. Media, donde apenas un 1.7% de padres rurales llegan a este nivel frente a 32.6% de padres residentes en zonas urbanas. Por ltimo, no existen padres residentes en zonas rurales que hayan logrado llegar a la E.superior, mientras que un 17.1% de los padres de zonas urbanas tienen este nivel de escolaridad. Osvaldo Blanco Socilogo Magster U. de Chile

Es tudios del padre Sin estudios Educ. Bsica Educ. Media Educ. Superior Total Count % of Total Count % of Total Count % of Total Count % of Total Count % of Total zona residencia RURAL URBANO 19 10.9% 44 22 25.1% 12.6% 3 57 1.7% 32.6% 30 17.1% 66 109 37.7% 62.3% Total 19 10.9% 66 37.7% 60 34.3% 30 17.1% 175 100.0%
Todo ello nos llevara concluir que existira una diferencia significativa entre vivir en determinada zona (urbano rural) y alcanzar determinado nivel educativo (E. Bsica, E. Media, E. Superior). En este sentido, podramos decir que la zona de residencia es una variable independiente que afecta la distribucin del nivel educativo (variable dependiente). No obstante, cabe preguntarse: Podemos estar seguros de que estadsticamente hablandohay una relacin entre el vivir en una determinada zona y alcanzar determinado nivel de estudios?

Estamos frente a un problema en donde lo que queremos probar es si existe independencia o asociacin entre 2 variables cualitativas o no mtricas (zona de residencia y nivel de escolaridad padres). Una de las variables establece grupos a comparar respecto de la otra variable: la variable independiente (zona de residencia) establece dos grupos (padres urbanos y padres rurales) que se diferencian en funcin de la variable dependiente (nivel educativo).
zona residencia RURAL URBANO 19 10.9% 44 22 25.1% 12.6% 3 57 1.7% 32.6% 30 17.1% 66 109 37.7% 62.3% Total 19 10.9% 66 37.7% 60 34.3% 30 17.1% 175 100.0%
Es tudios del padre
Sin estudios Educ. Bsica Educ. Media Educ. Superior
Total
Count % of Total Count % of Total Count % of Total Count % of Total Count % of Total

Valor del x2 obtenido
Chi-Square Tests Value 100.431a 124.085 175 df 3 3 As ymp. Sig. (2-sided) .000 .000
Pearson Chi-Square Likelihood Ratio N of Valid Cases
a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 7.17.
En este ejemplo son 3 los grados de libertad
Significacin del x2 obtenido. Este significacin se compara con el nivel de significacin previamente establecido por el investigador (por lo general es 0,05 0,01).
Todo el anlisis de la tabla de contingencia nos permite dar cuenta de una hiptesis: la zona de residencia afecta la distribucin del nivel educativo.
Por otra parte, sabemos que en todas las pruebas de hiptesis (chicuadrado tambin) la hiptesis que se somete a prueba es la hiptesis nula (H0).
Recordemos que la H0 sostiene que las variables independientes (no existe asociacin bivariadas).
Es una H1, pues establece que ambas variables estn asociadas.
son
Por lo tanto rechazamos H0 y concluimos que existe asociacin bivariada.

Para someter a contraste la H0 vemos la significacin del chicuadrado obtenido (0.000). Claramente es menor que nuestro nivel de significacin (0,05 e, incluso, menor que 0,01).
Ejemplo 2: Ejemplo de prueba x2 donde aceptamos H0 (las 2 variables son independientes)
Ejemplo de prueba x2 donde aceptamos H0

religin * EDAD Crosstabulation EDAD religin catlico evanglico Total Count % of Total Count % of Total Count % of Total joven 47 9.7% 37 7.6% 84 17.4% adulto 251 51.9% 149 30.8% 400 82.6% Total 298 61.6% 186 38.4% 484 100.0%
Imaginemos que estamos estudiando si existe relacin entre la edad (joven adulto) y el tipo de religin profesada (catlica evanglica).
Ejemplo de prueba x2 donde aceptamos H0

Chi-Square Tests Value 1.356b 1.084 1.339 df 1 1 1 As ymp. Sig. (2-sided) .244 .298 .247
Significacin del x2 obtenido = 0.244

Exact Sig. (2-sided) Exact Sig. (1-sided)
Pearson Chi-Square Continuity Correction a Likelihood Ratio Fis her's Exact Test Linear-by-Linear As soci ation N of Valid Cases
.268 1.353 484 1 .245
.149
a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The m inim um expected count is 32.28.
Independiente de la lectura de la tabla de contingencia, vmonos inmediatamente al contraste propiamente tal. Vemos que la significancia del valor chi-cuadrado obtenido es 0.244. En tanto 0.244 es claramente ms alto que 0,05 tenemos una probabilidad muy alta de cometer el error tipo I si nos atrevemos a rechazar H0. De hecho, la probabilidad de cometer el error tipo I es muy alta (24.4%).
Por lo mismo, aceptamos H0 y concluimos que las dos variables son indpendientes.
TABLAS DE FRECUENCIAS Y PRUEBA CHICUADRADO EN SPSS.
Para obtener una tabla de contingencia y un contraste chi-cuadrado de asociacin debemos ir al men Analizar (Analyce) Estadsticos Descriptivos (Descriptive Statistics) Tablas de contingencia... (Crosstabs...). Obtendr el presente cuadro de dilogo.
Pase las dos variables en Filas y Columnas, segn corresponda. Luego, haga clic en la pestalla Casillas de la parte de debajo del cuadro.
TABLAS DE FRECUENCIAS Y PRUEBA CHI-CUADRADO EN SPSS.
Elija Frecuencias Observadas y Esperadas. Tambin debiera elegir porcentajes en los 3 sentidos que vimos hoy (Fila, Columna, Total) Por ltimo, en cuanto a los residuos, haga clic en No tipificados. ....Continuar...
Volver a la ventana de las tablas de contingencia. Ahora aprete en la pestaa Estadsticos ubicada en la parte de abajo del cuadro.
Elija el estadstico Chi-cuadrado. ...Continuar....

TEMA Contraste chi-cuadrado para la asociacin entre 2 variables (repaso)
Prueba chi-cuadrado de asociacin

Usamos la prueba de chi-cuadrado de asociacin para probar si existe una relacin de asociacin o, por el contrario, si existe independencia entre 2 variables de escala nominal u ordinal. Las hiptesis en este contraste son:
H0 = No existe asociacin entre las dos variables (son variables independientes) H1 = Existe asociacin entre las dos variables (ambas variables estn relacionadas).
Prueba chi-cuadrado de asociacin

Cuestiones centrales de la prueba chi-cuadrado (a no olvidar): 1. El nivel de medicin de ambas variables es nominal u ordinal (si estuviramos trabajando variables intervalo o razn debemos reducirlas a ordinales). 2. La prueba contrasta la H0, la cual dice que las dos variables son independientes. 3. Cuanto mayor es el estadstico x2 ms probable que exista relacin/dependencia entre ambas variables, por tanto, mayor probabilidad de rechazar la H0. 4. Admitiremos una relacin significativa entre ambas variables (esto es, rechazaremos H0 y aceptaremos H1) cuando el grado de significacin del estadstico x2 obtenido en la prueba (Asymp.Sig) sea menor que nuestro nivel de significacin (0.05 0.01).
EJEMPLO
Los resultados del contraste chi-cuadrado en SPSS

Case Processing Summary Valid N ESTUDIOS QUE CURSA * SEXO 175 Percent 100.0% Cases Mis sing N Percent 0 .0% Total N 175 Percent 100.0%
SPSS nos entrega 3 tablas de resultados. La 1 es un resumen que nos muestra el valor total N y los casos missing La 2 tabla es la tabla de contingencia. Aqu tenemos los tres sentidos (marginal de filas, columnas y total) que aprendimos a leer. Tambin estn los residuales.
ES TUDIOS QUE CURS A
educac in bsi ca
educac in media
educac in superior
Total
Count Ex pec ted Count % within E STUDIOS QUE CURS A % within S EXO % of Total Residual Count Ex pec ted Count % within E STUDIOS QUE CURS A % within S EXO % of Total Residual Count Ex pec ted Count % within E STUDIOS QUE CURS A % within S EXO % of Total Residual Count Ex pec ted Count % within E STUDIOS QUE CURS A % within S EXO % of Total
SE XO HOMB RE MUJER 18 21 17.2 21.8 46.2% 23.4% 10.3% .8 39 36.5 47.0% 50.6% 22.3% 2.5 20 23.3 37.7% 26.0% 11.4% -3. 3 77 77.0 44.0% 100.0% 44.0% 53.8% 21.4% 12.0% -.8 44 46.5 53.0% 44.9% 25.1% -2. 5 33 29.7 62.3% 33.7% 18.9% 3.3 98 98.0 56.0% 100.0% 56.0%
Total 39 39.0 100.0% 22.3% 22.3% 83 83.0 100.0% 47.4% 47.4% 53 53.0 100.0% 30.3% 30.3% 175 175.0 100.0% 100.0% 100.0%
Los resultados del contraste chicuadrado en SPSS

La 3 tabla de resultados es el contraste chi-cuadrado propiamente tal.

Valor del x2 obtenido

Grados de libertad (df)
Significacin del x2 obtenido. Esta significacin se compara con el nivel de significacin previamente establecido por el investigador (por lo general es 0,05 0,01).
En el presente ejemplo la significacin del valor del x2 obtenido (Asymp.Sig. 2 sided = 0.544) es mayor que 0,05. Por lo tanto, en este ejemplo acepto H0. Cuando la significacin de nuestro valor x2 obtenido es mayor que el nivel de significacin previamente establecido por nosotros, entonces aceptamos H0 (por tanto, concluimos que no existe asociacin bivariada o, lo que es lo mismo, ambas variables son independientes). Cuando la significacin de nuestro valor x2 obtenido es menor que el nivel de significacin previamente establecido por nosotros, entonces rechazamos H0 (por tanto, aceptamos H1 y concluimos que existe asociacin bivariada).
Anlisis Post-Hoc del chi-cuadrado
Anlisis Post-Hoc del chicuadrado

No obstante la indudable importancia del chi-cuadrado para estudiar asociacin, slo podemos establecer la existencia o no existencia de la asociacin. Es decir, no podemos esfectuar con el chi-cuadrado ningn tipo de anlisis que nos permita dar cuenta de la fuerza, naturaleza o direccin de la asociacin. Aqu es donde aparecen algunos procedimientos que denominaremos Post-Hoc (a posteriori), muy tiles para el anlisis posterior a la determinacin de la significancia del estadstico observado. Los procedimientos Post-Hoc se aplican nicamente cuando se ha establecido por medio de la prueba la existencia de una asociacin entre dos variables (x2 significativo). Existen varios procedimientos, pero aqu slo veremos uno.
Anlisis post-hoc de x2
RESIDUOS: Son la diferencia (resta) entre las frecuencias observadas (fo) y las frecuencias esperadas (fe) en cada casilla.
Frecuencia observada Frecuencia esperada
sexo masculino femenino 50 121 44.3 126.7 5.7 -5. 7 57 185 62.7 179.3 -5. 7 5.7 107 306 107.0 306.0 Total 171 171.0 242 242.0 413 413.0
Es tuvo Ces ant e
No
Total
Count Ex pec ted Count Residual Count Ex pec ted Count Residual Count Ex pec ted Count
Residuo
En este ejemplo, la casilla masculino-cesante tiene una frecuencia observada de 50, mientras que la frecuencia que cabra esperar en el caso de que sexo y cesante no estuvieran asociadas (frecuencia esperada) es 44,3. El residuo para la casilla masculino-cesante es 5.7 (50 44.3 = 5.7)
En el caso de que el valor x2 obtenido sea significativo, los residuos nos indican qu casillas contribuyen en mayor grado al valor del estadstico. Cuanto mayor es el valor de los residuos mayor es la probabilidad de que una determinada combinacin de valores de las variables (una casilla) sea significativa (es decir, exprese asociacin bivariada). Esto porque el valor de un residuo expresa la diferencia entre lo observado (fo) y lo que cabra esperar en caso de independencia bivariada (fe).
ESTUDIOS QUE CURSA educacin bsica Count Expected Count Residual Adjusted Residual Count Expected Count Residual Adjusted Residual Count Expected Count Residual Adjusted Residual Count Expected Count HBITAT RURAL URBANO 5 34 14.7 24.3 -9.7 9.7 -3.6 3.6 44 39 31.3 51.7 12.7 -12.7 4.0 -4.0 17 36 33.0 20.0 -3.0 3.0 -1.0 1.0 66 109 66.0 109.0 Total 39 39.0
educacin media
83 83.0
educacin superior
53 53.0
Total
175 175.0
La forma ms sencilla de proceder es inspeccionar visualmente a tabla, identificando los residuos ms altos (positivos y negativos). En este caso, podemos ver que la asociacin se concentra en 4 casillas especficas:
urbano-educacin media (residuo = 12.7) urbano-educacin bsica (residuo = 9.7) rural-educacin bsica (residuo = 9.7) rural-educacin media (residuo = 12.7)
ESTUDIOS QUE CURSA educacin bsica Count Expected Count Residual Count Expected Count Residual Count Expected Count Residual Count Expected Count HBITAT RURAL URBANO 5 34 14.7 24.3 -9.7 9.7 44 39 51.7 31.3 12.7 -12.7 17 36 20.0 33.0 -3.0 3.0 109 66 109.0 66.0 Total 39 39.0 83 83.0 53 53.0 175 175.0
educacin media
educacin s uperior
Total
Se puede sealar que el valor x2 significativo (es decir, que indica asociacin bivariada) en realidad indica la asociacin de 4 cruces de categoras especficas (4 casillas). Gardner (2003: 168) propone una forma de cuantificar qu tanto contribuye cada uno de las casillas al valor x2 global.
Para ello hay que seguir los siguientes pasos:
1. Residuo de cada casilla elevado al cuadrado 2. Dividir cada resultado por su respectiva frecuencia esperada 3. Para casilla tener un resultado, valor que se debe dividir a su vez por el valor x2 global
Chi-Square Tests Value 19.275 a 20.787 175 df 2 2 As ymp. Sig. (2-sided) .000 .000 Pearson Chi-Square Likelihood Ratio N of Valid Cases
ESTUDIOS QUE CURSA
educacin bsica
educacin media
educacin s uperior
Total
Count Expected Count Residual Count Expected Count Residual Count Expected Count Residual Count Expected Count
HBITAT RURAL URBANO 5 34 14.7 24.3 -9.7 9.7 44 39 31.3 51.7 12.7 -12.7 17 36 20.0 33.0 -3.0 3.0 66 109 66.0 109.0
Total 39 39.0 83 83.0 53 53.0 175 175.0
1 PASO: Se debe elevar cada residuo al cuadrado:

Casilla Casilla Casilla Casilla Rural-Educ.Bsica: (9.7)2 = 94.09 Urbano-Educ.Bsica: (9.7)2 = 94.09 Rural-Educ.Media: (12.7)2 = 161.29 Urbano-Educ.Media: (12.7)2 = 161.29
Chi-Square Tests Value 19.275 a 20.787 175 df 2 2 As ymp. Sig. (2-sided) .000 .000
ESTUDIOS QUE CURSA
educacin bsica
educacin media
educacin s uperior
Total
HBITAT RURAL URBANO 5 34 14.7 24.3 -9.7 9.7 39 44 31.3 51.7 12.7 -12.7 36 17 20.0 33.0 -3.0 3.0 66 109 66.0 109.0
Total 39 39.0 83 83.0 53 53.0 175 175.0
2 PASO: Se debe dividir el resultado por sus respectivas frecuencias esperadas:

Casilla Casilla Casilla Casilla Rural-Educ.Bsica: 94.09/14.7 = 6.4 Urbano-Educ.Bsica: 94.09/24.3 = 3.8 Rural-Educ.Media: 161.29/31.3 = 5.1 Urbano-Educ.Media: 161.29/51.7 = 3.1
Valor x2 global
Chi-Square Tests Value 19.275 a 20.787 175 df 2 2 Asymp. Sig. (2-sided) .000 .000
ESTUDIOS QUE CURSA
educacin bsica
educacin media
educacin s uperior
Total
HBITAT RURAL URBANO 5 34 14.7 24.3 -9.7 9.7 44 39 31.3 51.7 12.7 -12.7 17 36 20.0 33.0 3.0 -3.0 66 109 66.0 109.0
Total 39 39.0 83 83.0 53 53.0 175 175.0
3 PASO:
El resultado de cada casilla debe dividirse por el valor x2 global.
6.4/19.275 3.8/19.275 5.1/19.275 3.1/19.275 = = = = 0.33 (La casilla Rural-Educ.Bsica explica el 33% de la x2 global) 0.197 (La casilla Urbano-Educ.Bsica explica el 19.7% de la x2 global) 0.26 (La casilla Rural-Educ.Media explica el 26% de la x2 global) 0.16 (La casilla Urbano-Educ.Media explica el 16% de la x2 global)
De todo esto podemos concluir que la zona rural y su cruce con las categoras de Educacin Bsica y Media aporta el 59% del valor x2 global.
Otros coeficientes de correlacin (asociacin) para tablas de Contingencia
Otros coeficientes de correlacin (asociacin) para tablas de Contingencia
Hemos dicho que el estadstico x2 slo seala si existe o no asociacion bivariada, pero nada nos dice respecto de la magnitud o fuerza de la asociacin.
Para ello usamos el coeficiente de contingencia, la phi (fi) y V de Cramer, Lambda, coeficiente de incertidumbre, Gamma, d de Somers, Tau-b y Tau-c de Kendall.
Otros coeficientes de correlacin (asociacin) (Tablas de Contingencia)
Los coeficientes que vemos aqu son complementarios al chicuadrado. Son tiles cuando sabemos que existe asociacin (gracias al chi-cuadrado), pero queremos indagar sobre la intensidad o fuerza de la asociacin. Algunos son valores que oscilan de 0 a 1, mientras que otros oscilan de 1 a +1. En todos los casos, 0 = independencia de las variables.

Ya sealamos que el Chi-cuadrado es un estadstico que slo nos permite saber si dos variables cualitativas se encuentran o no asociadas. Es decir, el x2 slo nos indica si hay o no asociacin. Los ndices que a continuacin se definen nos permiten complementar nuestros anlisis. Una vez que hayamos comprobado por medio de la prueba chi-cuadrado la existencia de una asociacin, podremos preguntarnos por la fuerza (grado) de dicha asociacin. Esto implica una comparacin entre la informacin que se observa por medio de la distribucin conjunta (es decir, donde una variable independiente tiene efectos e la distribucin de una variable dependiente) y la informacin que tuvisemos si slo contramos con la variable dependiente.

Es decir, estamos ante dos situaciones: una es poseer informacin completa (la frecuencia o porcentajes producidos por el cruce de dos variables) y otra es contar con la informacin de una sola variable y de ah comenzar a hacer predicciones respecto de cmo se distribuira nuestra variable si la cruzramos con la variable independiente. Esta metodologa es la que se conoce como RPE (reduccin proporcional del error) y es la que se usa para el clculo de todos los ndices de asociacin para variables nominales y ordinales.
No se va a profundizar aqu el mtodo RPE. Para ello cf. Garca Ferrando, op.cit: 233-256.

La existencia de asociacin Sabemos que existe una asociacin entre 2 variables cuando la distribucin de una de las variables difiere de alguna forma entre las distintas categoras de la 2 variable. Es decir, existir una asociacin entre dos variables cuando las correspondientes distribuciones condicionales (los marginales) difieren en mayor o menor grado entre s. La fuerza de la asociacin Una vez determinada la existencia de asociacin bivariable, un segundo punto ser determinar a fuerza de sta. Para su anlisis suelen usarse ndices estandarizados que varan de una valor mnimo de asociacin hasta valores de fuerte asociacin. La direccin de la asociacin Es una nocin apropiada para variables que, al menos, estn medidas a nivel ordinal. Se dir que la asociacin de una asociacin positiva cuando en una tabla la tendencia de una variacin conjunta de las dos variables hace que los valores altos de una se correspondan con los valores altos de la otra (y los valores bajos de una con la otra). En cambio, se dir que una asociacin es negativa cuando los valores superiores de una variable se corresponden con los valores de la segunda y los valores bajos de la segunda se corresponden con los valores altos de la primera.

Los coeficientes que a continuacin veremos nos sirven para medir la fuerza. someramente
Slo en los casos de variables ordinales podemos preguntarnos por la direccin de la asociacin, pues en variables de este tipo los datos se jerarquizan de > a <.
La direccin nos dir si los valores de las categoras altas se corresponden con valores de la otra variable pertenecientes a categoras tambin altas (y viceversa con los valores bajos) o si, por el contrario, los valores altos de una variable hacen que aumenten los valores bajos de la otra. Cuando el primer caso suceda (valores altos de la independiente producen valores altos en la dependiente y, viceversa, los valores bajos de una se corresponden con valores bajos de la otra) se hablar de asociacin positiva, mientras que cuando los valores altos de la independiente generen un aumento de los valores bajos (y viceversa) en la dependiente se hablar de asociacin negativa.
ndices de asociacin para 2 variables nominales

Coeficiente Phi: Tambin denominado coeficiente de contingencia cuadrtica media o fi-cuadrado y nos indica la fuerza o grado de la asociacin. Dar valores que oscilarn entre 0 (dbil grado de asociacin) y 1 (fuerte grado de asociacin). Podremos ocuparlo cuando tengamos nuestras dos variables nominales sean dicotmicas, por tanto, en tablas de contingencia de 2x2. Es decir, si bien se puede emplear en tablas donde al menos una de las 2 variables tenga ms de 2 categoras, no es aconsejable hacerlo, ya que el valor mximo se desvirtuar (cuestin que veremos con el coeficiente siguiente).

Coeficiente de Contingencia: Se le denomina por la letra C y se puede definir como una extensin del coeficiente Phi, al tiempo que tambin nos sirve para indicar la fuerza o grado de la asociacin. Podremos ocuparlos en los casos en que al menos 1 de las 2 variables tenga ms de dos categoras. En teora, el coeficiente C tambin debiera oscilar entre 0 y 1, sin embargo, nunca llega a 1. En efecto, para una tabla cuadrada (es decir, una tabla en la que el nmero de filas es igual al de columnas) el valor mximo de C se calcula mediante la siguiente frmula:
De esta manera, deberemos contrastar el valor de C que obtenemos con el valor C mx para poder establecer si estamos ante una fuerte o dbil asociacin. Al respecto, se puede sealar que para diferentes tablas cuadradas los valores C mx sern:
Tablas Tablas Tablas Tablas 2x2: 3x3: 4x4: 5x5: 0,707. 0,8165. 0,87. 0,89.
En definitiva, este problema del valor mximo en el coeficiente C hace que no sirva para comparar tablas de distinto tamao.

Coeficiente V de Cramer: A diferencia del coeficiente C, la V de Cramer adopta valores que oscilan entre 0 (ausencia de asociacin) y 1, donde s es posible llegar a la unidad. Al igual que los otros dos coeficientes anteriores, la V de Cramer sirve para dar cuenta de la fuerza (grado) de la asociacin.
ndices de asociacin para variables ordinales

Coeficiente Gamma: Se puede interpretar como la reduccin proporcional en el error cometido al predecir el ordenamiento de los casos en una variable mediante el conocimiento de la ordenacin de los casos en otra variable, en lugar de realizar la prediccin basndose en una ordenacin aleatoria de los casos en las dos variables. Cuando usamos el coeficiente Gamma no necesitamos distinguir entre variable independiente y dependiente. Gamma puede alcanzar valores lmites de 1 y +1. Valores prximos a +1 indican una fuerte asociacin positiva, es decir, que los valores altos de una variable coinciden con los valores altos de la otra. Valores prximos a 1 indican fuerte asociacin negativa, es decir, que a medida que aumentan los valores altos de una variable disminuyen los valores altos de la otra. Sin embargo, Gamma presenta el inconveniente de que puede adoptar valores de la unidad sin que por ello signifique asociacin total.
ndices de asociacin para variables ordinales

Tau-b de Kendall: Se puede interpretar igual que el coeficiente Gamma, con la diferencia que es apropiado para 2 variables que presentan el mismo nmero de categoras, es decir, que forman una tabla cuadrada. Tau-c de Kendall: Es una extensin de la Tau-b, pero para asociacin bivariada para el caso de que ambas variables tengan distinto nmero de categoras. Alcanza valores que oscilan entre 1 y +1, sin embargo, tiende a subestimar el verdadero grado de asociacin entre las variables. D de Somers: Distingue entre variable variables dependientes e independientes, es decir, debe explicitarse cul es la variable dependiente. Vara entre +1 (asociacin positiva perfecta) y 1 (asociacin negativa perfecta).
BIBLIOGRAFA
Garca Ferrando, Manuel (1999): Socioestadstica. Introduccin a la estadstica en sociologa, pgs. 294-298 Gardner (2003): Estadstica para Psicologa usando SPSS para Windows, pgs. 154-172 Ferrn, Magdalena (2001): SPSS para Windows. Anlisis estadstico, pgs. 49-56.

8 - Chi Cuadrado 1 Muestra y Asociación Bivariada

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

8 - Chi Cuadrado 1 Muestra y Asociación Bivariada

Cargado por

Copyright:

Formatos disponibles

SOCIOESTADSTICA Carrera de Sociologa

EMPLEO DE LAS PRUEBAS DE DECISIN ESTADSTICA: PRUEBAS DE HIPTESIS BIVARIADAS

Pruebas para el estudio de la asociacin bivariada

Regresin Lineal y Correlacin con r de Pearson.

Pruebas para la comparacin de medias entre al menos 2 grupos.

Prueba de comparacin de medias: la prueba t de Student.

Anlisis de varianza de un factor (Anova):

Osvaldo Blanco Socilogo Magster U. de Chile

Osvaldo Blanco Socilogo Magster U. de Chile

PRIMER TEMA : Prueba Chi-cuadrado para una muestra en SPSS

Prueba Chi-cuadrado para una muestra

Tipologa de pruebas Chi-cuadrado

Osvaldo Blanco Socilogo Magster U. de Chile

Prueba Chi-cuadrado para una muestra

Donde O: frecuencias observadas. E: frecuencias esperadas.

Osvaldo Blanco Socilogo Magster U. de Chile

Prueba Chi-cuadrado para una muestra

Prueba Chi-cuadrado para una muestra

Prueba Chi-cuadrado para una muestra

Cuando la H0 especifica el nmero de observaciones esperadas.

En este caso, E = lo que dice la teora, nosotros u otro estudio.

Prueba Chi-cuadrado para una muestra

Otros conceptos que se deben tener en cuenta son:

Chi-cuadrado para una muestra en SPSS

Chi-cuadrado para una muestra en SPSS

Osvaldo Blanco Socilogo Magster U. de Chile

Osvaldo Blanco Socilogo Magster U. de Chile

Osvaldo Blanco Socilogo Magster U. de Chile

Osvaldo Blanco Socilogo Magster U. de Chile

20,9 7,0 97,7 2,3 100,0

Mis sing Total

(90 84.4)2 84.4 = (5.6)2 84.4 +

(27 32.5)2 32.5 + (0.1)2 9.1

= 0.371 + 0.930 + 0.001

Osvaldo Blanco Socilogo Magster U. de Chile

Osvaldo Blanco Socilogo Magster U. de Chile

Osvaldo Blanco Socilogo Magster U. de Chile

Osvaldo Blanco Socilogo Magster U. de Chile

En este caso, la H0 se expresa de la siguiente manera:

Chi-Square a df As ymp. Sig.

Osvaldo Blanco Socilogo Magster U. de Chile

SEGUNDO TEMA: Tablas de contingencia y asociacin bivariada.

La prueba Chi-cuadrado para la asociacin bivariada.

Tipologa de pruebas Chi-cuadrado

Osvaldo Blanco Socilogo Magster U. de Chile

Prueba Chi-cuadrado para la asociacin bivariada.

Las Hiptesis en la prueba Prueba Chicuadrado para la asociacin bivariada.

Prueba Chi-cuadrado para la asociacin bivariada.

Prueba Chi-cuadrado para la asociacin bivariada.

Osvaldo Blanco Socilogo Magster U. de Chile

Prueba Chi-cuadrado para la asociacin bivariada.

Osvaldo Blanco Socilogo Magster U. de Chile

Prueba Chi-cuadrado para la asociacin bivariada.

Prueba Chi-cuadrado para la asociacin bivariada.

EDAD joven adulto 45 274 39 126 84 400

Total 319 165 484

Osvaldo Blanco Socilogo Magster U. de Chile

Prueba Chi-cuadrado para la asociacin bivariada

El clculo de chi-cuadrado realizado de forma manual implica los siguientes pasos:

Osvaldo Blanco Socilogo Magster U. de Chile

Prueba chi-cuadrado sin SPSS

Osvaldo Blanco Socilogo Magster U. de Chile

Prueba chi-cuadrado sin SPSS