Está en la página 1de 6

Curso de introduccin a Stata Jordi Muoz (UAB)

Sesiones 5 - 6: Tablas de contingencia


Tablas de contingencia: qu son? Dos (o ms) variables categricas Explorar la relacin entre ellas Ejemplo: voto y asistencia a servicios religiosos

Variables dependiente e independiente Variable dependiente: Lo que queremos explicar. La consecuencia Variable independiente: Lo que explica la dependiente. La causa

Tablas de contingencia: las 3 reglas Regla 1: Poner siempre la variable dependiente en las filas, la independiente en las columnas Regla 2: Calcular los porcentajes de las categorias de la variable independiente (porcentajes de columna) Regla 3: Interpretar la tabla mediante la comparacin entre columnas para el mismo valor de la variable dependiente

Tablas de contingencia : La hiptesis nula (independencia)

Distribucin proporcional de los casos a lo largo de la columna, basada en los totales de fila

Frecuencia esperada (bajo supuesto de independencia) en la celda (i,j):

E(i,j) = (nmero total en la columna j * numero total en la fila i)/nmero total en la tabla E(i,j) = [(total fila/total tabla)*(total columna/total tabla)]*total = (total fila*total col)/total tabla

Residuos

Residuo en la celda (i,j) = frecuencia observada (i,j) frecuencia esperada (i,j)

R(i,j)= O(i,j)-E(i,j)

Resduos estandarizados

Residuo estandarizado, de Pearson

Curso de introduccin a Stata Jordi Muoz (UAB)

Std . Re sij

Rij Eij

Media 0 y desviacin tipica 1

Si son positivos, la celda est sobrerepresentada Si son negativos, est infrarepresentada

Chi cuadrado

Test del Chi-cuadrado

Grados de libertad: (I-1)(J-1)


La tabla del Chi cuadrado nos indicar la probabilidad de haber obtenido aquel valor bajo supuesto de independencia

Curso de introduccin a Stata Jordi Muoz (UAB)

Si p>; aceptamos la hiptesis nula (no hay relacin) Si p<; rechazamos la hiptesis nula y nos quedamos con la alternativa (Hay relacin entre las variables) Si el Chi-cuadrado nos indica que hay relaci entre las variables, entonces podemos mirar los resduos estandarizados, que nos indicarn que celdas causan la relacin.

Problemas:

Sensible al tamao de la muestra (proporcional a N) Debemos cumplir que Ei,j >5 (fusionar categorias)

Resduos estandarizados

Los Resduos estandarizados nos dan una indicacin sobre indicios de relacin entre las variables: si el resduo es demasiado grande, debemos dudar de la hiptesis de independencia.

Std . Re sij

Rij Eij

Los niveles de significacin de los resduos estandarizados: +/- 1.96, alrededor de 0.05. +/-2.58, alrededor de 0.01.

Esto equivale a un test de la hiptesis nula que la frecuencia observada y la esperada de la celda son iguales.

Tablas de contingencia: medidas de asociacin

El Chi cuadrado nos permite decir si hay o no relacin entre las variables, pero cmo de fuerte es la relacin? Para responder esta pregunta tenemos que ver los estadsticos Phi y V de Cramer. La Phi es adecuada para tablas de 2*2 La V de Cramer es adecuada para tablas ms grandes Varian entre -1 y 1 -1.0 a -0.7 associacin negativa fuerte -0.7 a -0.3 associacin negativa -0.3 a +0.3 poca o ninguna associacin +0.3 a +0.7 associacin positiva +0.7 a +1.0 associacin positiva fuerte

Curso de introduccin a Stata Jordi Muoz (UAB)

Tablas de contingencia en Stata El comando de stata para realizar tablas de contingencia es tabulate, el mismo que empleamos para pedir tablas de frecuencias. La nica diferencia es que para obtener una tabla de contingencia debemos especificar las dos variables que queremos.

Tabulate Produce una tabla de contingencia de las dos variables especificadas, colocando la primera de ellas en las filas y la segunda en las columnas. Por tanto, deberemos colocar siempre la variable dependiente primer lugar y la independiente en segundo lugar (recordar las tres reglas).

tab2 Si intentamos especificar ms de dos variables, Stata nos devolver un mensaje de error (too many variables specified). Para evitar esto, existe el comando tab2, que dice a Stata que haga todas las tablas de contingencia por parejas de variables.

Tab2, firstonly La opcin firstonly del comando tab2 evita que Stata haga tablas de contingencia de todas las parejas de variables especificadas, ya que a menudo lo que nos interesarn sern los emparejamientos de una variable dependiente con varias independientes. Por eso, con esta opcin, tab2 calcular las tablas de la primera variable especificada con cada una de las otras.

Opciones de contenido Con estas opciones del comando tabulate (o de tab2) podemos especificar a Stata los contenidos de las casillas de las tablas:

o o o o o

Row Esta opcin nos mostrar el porcentaje de fila Col Porcentaje de columna Cell El porcentaje del total Expected Frecuencia esperada Nofreq No mostrar frecuencia

Medidas de asociacin: Para obtener el chi cuadrado (y su valor p), deberemos especificar la opcin chi, mientras que la opcin V (mayscula) nos mostrar la V de Cramer.

Tabchi Para obtener los resduos y los resduos estandarizados, debemos usar el comando tabchi (hay que instalarlo con el comando ssc install tab_chi porque no viene en el paquete original de Stata). Tabchi tiene las siguientes opciones: o o o Raw Resduos (frecuencia esperada observada) Pearson resduos estandarizados Noo y noe suprimen, respectivamente, la frecuencia observada y la esperada (en caso de que queramos una tabla slo con resduos).

Curso de introduccin a Stata Jordi Muoz (UAB)

Prctica tablas de contingencia: Actitudes hacia la inmigracin

Despus de haber introducido los elementos estadsticos necesarios para trabajar e interpretar las tablas de contingencia, el siguiente paso lgico es el de ponerlo en prctica. Para ello, haremos una prctica con datos reales sobre las actitudes hacia la inmigracin y las variables que puedan estar relacionadas.

La prctica est pensada para cubrir todo el proceso de investigacin emprica, y por lo tanto, tiene tres fases: preparacin de datos, anlisis y exportacin.

1. Preparacin de datos Cuando hayamos conseguido abrir los datos con Stata, debemos prepararlos para el anlisis. La primera cuestin que debemos saber es qu variables utilizaremos. Esto, como hemos visto en clase, va en funcin de nuestras hiptesis. En este caso, tendremos como variable dependiente las actitudes hacia la inmigracin.

Variable dependiente En la encuesta con la que trabajamos hay varias preguntas sobre la cuestin. Podemos elegir una de ellas o crear una nueva que resuma informacin, aunque recuerda que para trabajar con tablas de contingencia debe ser categrica.

Variables independientes Como variables independientes, podemos utilizar algunas de las que ha sugerido la literatura sobre la cuestin. Haz una seleccin entre algunas de stas y prepralas convenientemente:

-Recursos cognitivos: nivel de estudios -Ideologa -Edad -Estatus socioeconmico -Precariedad laboral y desempleo -Uso servicios pblicos -Identidad religiosa -Confianza interpersonal -Contacto con inmigrantes 2. Anlisis de datos

Curso de introduccin a Stata Jordi Muoz (UAB)

La tcnica de anlisis que emplearemos son las tablas de contingencia. Una vez tenemos seleccionadas y adecuadamente codificadas las variables que queremos utilizar, podemos proceder a pedir las tablas de contingencia correspondientes.

Para cada cruce, en lnea con lo que discutimos en clase, pediremos todas las tablas que nos interesen. Almenos debemos pedir: Tabla con los porcentajes de columna Tabla con los residuos estandarizados Chi cuadrado y V de Cramer

3. Exportacin de datos Podemos exportar a word las tablas que nos interese mostrar y comentar los resultados.

También podría gustarte