Análisis Univariado, Bivariado y Variables Control (30.03.10) - J. Fierro

ANLISIS ESTADSTICO UNIVARIADO, BIVARIADO Y VARIABLES CONTROL1
El presente documento de trabajo tiene por objeto enfatizar de un modo sencillo algunos de los contenidos vistos en clases en relacin con el anlisis univariado, bivariado y variables control. Cada uno de los aspectos aqu tratados puede ser profundizado con el apoyo de la bibliografa sugerida para el curso, segn se ha indicado en el programa. Por tratarse de un texto preliminar, mucho de lo que aqu se expone est sujeto a futuras correcciones y actualizaciones, constituyendo el primero de una serie de apuntes que sern entregados en el transcurso del semestre acadmico.
1.
TIPOS DE VARIABLES
Las variables pueden ser clasificadas segn diferentes tipos de criterios, entre ellos podemos mencionar el nivel de medicin y el lugar que ocupan en la investigacin. 1.1. Segn nivel de medicin
El nivel de medicin de una variable determina tanto el tipo de operaciones matemticas que puede realizarse (suma, resta, multiplicacin, divisin, etc.) como el tipo de tcnicas estadsticas correspondiente para la prueba de hiptesis. De acuerdo a su nivel de medicin las variables pueden ser clasificadas en nominales, ordinales, intervalares y de razn. Las variables nominales, tambin llamadas variables cualitativas o categricas, hacen referencia a ciertas cualidades o atributos en los valores de una variable. Es decir, dichos valores (categoras) no pueden ser ordenados a partir de un criterio de jerarqua. Ejemplo: sexo, religin, zona (urbano/rural), etc. En el caso de sexo, si asignamos valor 1 = hombre y valor 2 = mujer, difcilmente resulta razonable sostener que mujer vale dos veces hombre. De igual modo queda de manifiesto que los valores son asignados de un modo arbitrario. Perfectamente pudimos haber otorgado el valor 1 a mujer (y no el valor 2). En las variables ordinales, a diferencia de las nominales, los valores de la variable pueden ser ordenados a partir de algn criterio de jerarquizacin. Se puede establecer por consiguiente un orden ascendente o descendente entre los distintos valores (o categoras). Ejemplo: NSE (bajo, medio, alto), percepcin de progreso del pas (progresando, estancado, en decadencia), etc. En las variables intervalares, al igual que las ordinales, los valores de la variable pueden ser jerarquizados. Y, a su vez, a diferencia de las ordinales, los distintos valores de la variable son equidistantes. Existen intervalos regulares entre las puntuaciones de la variable en su escala de medicin. Ejemplo: temperatura. En ciencias sociales se asume que, de acuerdo a una cierta convencin no ortodoxa, las variables medidas a travs de escalas Likert de cinco categoras (muy de acuerdo, de acuerdo, ni de acuerdo/ni en desacuerdo, en desacuerdo, muy en desacuerdo) se comportan como si fueran variables intervalares. No obstante, debe chequearse si distribucin si se ajusta o no a una curva normal.
1
Profesor Jaime Fierro, Socilogo y Magster en Ciencias Sociales de la Universidad de Chile. Ph.D. en Ciencia Poltica de la Universidad de Essex, Inglaterra. Actualizado al primer semestre de 2010.
Las variables de razn se diferencian de las intervalares por el hecho de que el 0 no es un valor fijado de un modo arbitrario (como podra ser el caso de la temperatura en donde el valor de 0 grados no significa ausencia de temperatura), sino que es real y representa la ausencia del atributo. Ejemplo: mortalidad, edad, ingresos, etc. *** Se debe tener presente el hecho de que cualquier variable puede ser recodificada en un nivel inferior de medicin, pero no as lo contrario. Podemos, por ejemplo, recodificar una variable intervalar en ordinal o nominal, pero en ningn caso podemos pasar de una variable medida a nivel nominal a una de tipo ordinal o intervalar.
1.2.
Segn el lugar que ocupan en la investigacin
Variable dependiente: corresponde a la variable (fenmeno) que intentamos caracterizar o explicar. Variable(s) independiente(s): corresponde(n) a la(s) variable(s) que explicara(n) las variaciones en los valores de la variable dependiente. En ltima instancia seran las causas del fenmeno bajo estudio. El proceso de corroboracin de relaciones de tipo casual requerir, entre otras cosas, del descarte de relaciones espurias (falsas). Variables de control: se introducen con la finalidad de determinar si la relacin inicial entre la variable dependiente y la(s) independiente(s) es verdadera. Esto permitira aumentar la validez interna de un estudio (relacin causa-efecto). Variables intervinientes: son aquellas variables que haran que la relacin inicial entre la variable dependiente y la independiente sea: i) falsa en el caso de ser verdadera inicialmente; o ii) verdadera en el caso de ser falsa inicialmente. Es decir, las variaciones o no en los valores de las puntuaciones de la variable dependiente no se deben a las variaciones en los valores de la variable dependiente, sino ms bien a una accin de una tercera variable. Variables condicionantes: son variables que median la relacin entre la variable dependiente y la independiente sin modificarla completamente, salvo en algunas de sus categoras o valores.
2.
ANLISIS UNIVARIADO
Al realizar un anlisis univariado nos concentramos en cada variable de modo independiente. Usualmente trabajamos con distribuciones de frecuencias, medidas de tendencia central y medidas de dispersin. 2.2. Distribucin de frecuencias
La distribucin de frecuencias nos indica el nmero de casos que hay en cada categora de la variable. A partir de dichos valores, en una tabla de frecuencias, se calcula el porcentaje (respecto del total de observaciones), porcentaje vlido (excluido los valores perdidos) y el porcentaje acumulado (porcentaje de la primera categora, luego ste ms el de la segunda categora y as sucesivamente). Se aplica para variables nominales, ordinales y en cierto tipo de variables intervalares (por ejemplo, en escalas Likert). Adems de la tabla de frecuencias tambin es posible hacer representaciones grficas tales como: grfico de barras, grfico circular o un polgono de frecuencias. 2.3 Medidas de tendencia central: media, mediana y moda
Las medidas de tendencia central dan cuenta del tipo de distribucin que tienen los valores de la variable respecto de un valor tpico, o puntuacin central, a partir del cual se agrupan. Se calculan para variables medidas a nivel nominal, ordinal y en algunas intervalares (por ejemplo, en escalas Likert). La media o promedio corresponde a la suma de todas las puntuaciones de la variable dividida por el nmero total de casos. La mediana es el valor que divide por la mitad a las puntuaciones de la variable: los que estn por debajo de ste y los que estn por encima. Es decir, es el valor que divide en dos mitades a las observaciones. La moda es el valor que ms que ms se repite del conjunto de observaciones, pudiendo haber ms de una moda (bimodal o multimodal).
*** En una curva de distribucin normal coinciden la media, la mediana y la moda.
2.4.
Medidas de dispersin: desviacin estndar y varianza
Las medidas de dispersin indican el grado variabilidad de de los datos respecto de la media (promedio). Se debe tener presente que una propiedad de la media es que la suma de las diferencias de todos los valores de la variable respecto de la media es siempre 0. Es por ello que para el clculo de la varianza y la desviacin estndar la se procede a elevar la sumatoria de las diferencias al cuadrado. La varianza es el valor promedio del cuadrado de las puntuaciones respecto de la media. Se utiliza mucho en pruebas de inferencia estadstica (de la muestra al universo), pero su unidad de medida no es directamente interpretable (ya que est al cuadrado), razn por la cual se recurre a la desviacin estndar. Su frmula de clculo es la siguiente:
( x x)
n
La desviacin estndar o tpica es el promedio de desviacin de los valores de las observaciones respecto de la media, expresada en los valores originales de la medicin de la variable. Esto no es otra cosa que la raz cuadrada de la varianza. Cuanto ms se aleje el valor respecto de la media, mayor ser la desviacin estndar. Se aplica a variables medidas a nivel intervalar o de razn. Su frmula de clculo es la siguiente:
S
( x x)
n
2.5. Ejecucin de tablas de frecuencias, medidas de tendencia central y de dispersin en SPSS
La serie de comanda a ejecutar seran los siguientes: 1. 2. 3. 4. Analizar en la barra del men de SPSS Estadsticos descriptivos Frecuencias / Ingresar variables Estadsticos > Tendencia central / Seleccionar media, mediana y moda, segn corresponda al nivel de medicin de las variables Dispersin / Seleccionar desviacin estndar y varianza. Slo para variables intervalares Continuar Aceptar
5. 6.
2.6.
Ejemplo de un caso aplicado en SPSS
Si alguien quisiera saber la proporcin de chilenos que se considera feliz podemos intentar responder dicha pregunta a partir de la Encuesta CEP Diciembre de 2008 (www.cepchile.cl), ya que contiene una pregunta al respecto. Puesto que la variable ha sido medida en una escala Likert de cuatro categoras, bastara extraer simplemente una distribucin de frecuencias. Antes de eso, sin embargo, los valores No sabe (codificados usualmente con valores 8) y No contesta (codificados usualmente con valores 9) habra que incluirlos como Valores perdidos y, de este modo, obtendremos el porcentaje vlido de casos para la variable felicidad. Los pasos seran: 1. Seleccionar la columna de valores en la variable felicidad e identificar los valores asociados a No sabe (8) y No contesta (9) 2. Aceptar 3. Seleccionar la columna de valores perdidos en la variable felicidad e ingresar los valores 8 y 9 como valores perdidos 4. Aceptar
Luego ya estamos en condiciones de realizar una distribucin de frecuencias de modo ms adecuado. Continenos entonces con el resto del procedimiento: 1. Analizar en la barra del men de SPSS 2. Estadsticos descriptivos 3. Frecuencias / seleccionar e ingresar la variable felicidad a la casilla de variables 4. Continuar 5. Aceptar
Finalmente, la tabla de distribucin de frecuencias sera la siguiente:
Considere su vida en general, qu tan feliz o infeliz Ud. dira que es su vida en general? Porcentaje v lido 3,8 22,3 47,6 26,3 100,0 Porcentaje acumulado 3,8 26,1 73,7 100,0
Frecuencia Vlidos Para nada f eliz No muy f eliz Bastante f eliz Muy f eliz Total Perdidos No sabe No contesta Total Total 57 333 713 394 1498 1 6 7 1505
Porcentaje 3,8 22,2 47,4 26,2 99,5 ,1 ,4 ,5 100,0
En dnde, segn se puede apreciar en la columna de porcentaje vlido de la tabla, un 26.3% de los chilenos se considera en general en su vida Muy feliz versus el 3.8% que se considera Para Nada Feliz. Del mismo modo, observamos que una parte significativa de los chilenos se considera No muy feliz, 22.3%. A partir de estos datos surgen una serie de posibles preguntas al respecto, por ejemplo, Depende el nivel de felicidad de las personas del sexo, la edad, la escolaridad o el NSE? Responder preguntas como esta requiere, sin embargo, de un tipo de anlisis distinto. En estadstica lo denominamos Anlisis Bivariado, ya que incluye una variable dependiente y al menos una variable independiente.
3.
3.1.
RELACIONES ENTRE VARIABLES NOMINALES Y ORDINALES

El estudio de la relacin entre variables
En las ciencias sociales a menudo se desea determinar la existencia o no de relacin entre dos variables, para lo cual se realizan diferentes pruebas de significacin estadstica. La forma en que se relacionan dos variables se denomina asociacin entre dos variables. El inters de este tipo de anlisis se centra principalmente en la forma en que se distribuye la variable dependiente en funcin de las diferentes categoras o valores de la variable independiente. Es decir, la variable que atrae primordialmente la atencin del investigador, y cuya variacin trata de explicar, se llama variable dependiente, porque se supone que los valores que toma dicha variable dependen de los valores que presentan otras variables. Estas variables que se suponen influyen en los valores que toma la variable dependiente son las variables independientes (explicativas o causales), ya que permiten conocer por qu vara la variable dependiente de la forma que lo hace en una determinada poblacin (usualmente una muestra).
Sin embargo, los resultados que aparecen al establecer relaciones significativas entre dos variables son de naturaleza descriptiva y tales resultados no explican por qu ocurre dicha relacin. Esto es, una correlacin entre dos variables no implica necesariamente una relacin causal entre ellas puesto que en cualquier correlacin podra existir una tercera variable que explique la asociacin entre las dos variables que han sido medidas (relacin espuria). A su vez, se debe verificar que la variable independiente (causa) anteceda temporalmente a la variable dependiente (efecto). Del mismo modo, se hace necesaria la existencia de una teora que nos permita discriminar entre las simples relaciones estadsticas y las relaciones causales propiamente tales. El estudio de la relacin entre dos variables se puede caracterizar mediante: i) la existencia o no de asociacin; ii) la fuerza de dicha asociacin y iii) la direccin de sta.2 Ciertamente solamente tiene sentido ii) y iii) si se verifica en i) la existencia de relacin entre las variables. Para ello se utilizan un conjunto de pruebas de significacin estadstica, las cuales dependern del nivel de medicin de las variables.
A la base de dicho anlisis se encuentra la teora y las hiptesis que se puedan desprender de sta. En otras palabras, en el estudio de relaciones entre variables intentamos testear empricamente hiptesis que nos resultan plausibles a la luz de un cierto marco tericoanaltico. Una hiptesis no es otra cosa que una respuesta tentativa a la pregunta de investigacin (problema). Es una prediccin respecto del posible resultado que se espera encontrar. Y, en el estudio de relaciones entre variables, sta guarda relacin con el hecho de determinar si las variaciones en los valores de la variable independiente se encuentran o no asociados a las variaciones en los valores de la variable dependiente. Puesto que una hiptesis requiere de verificacin emprica, se hace necesario realizar una prueba de significacin estadstica para determinar si la hiptesis planteada se verifica o no.
3.2. Las pruebas de significacin estadsticas
Para la determinacin de la existencia o no de asociacin entre la variable dependiente y las variables independientes se utilizar el coeficiente estadstico Chi Cuadrado de Pearson. La intensidad de la asociacin se determinar mediante el coeficiente V de Cramer. Para la determinacin de a direccin de la asociacin, en tanto, se efectuar el coeficiente de correlacin de Spearman.
2
Una cuarta caracterstica hace referencia a la naturaleza de la relacin. Es decir, a la forma de distribucin de X respecto de Y, ya sea de forma lineal, curvilnea o de otra naturaleza.
La prueba de significacin estadstica basada en el coeficiente Chi Cuadrado de Pearson tiene como fin examinar asociacin entre variables categricas (nominales u ordinales).3 Existe asociacin entre variables cuando los valores de una de ellas dependen de los valores de otra. Cuando dos variables estn relacionadas es posible predecir los valores de la variable dependiente en funcin de los valores de las variables independientes. No existe relacin cuando stas son independientes. Dos variables independientes no tienen nada en comn. El estadstico Jicuadrado, sin embargo, no permite estudiar la intensidad de la relacin entre las variables. La prueba basada en el Coeficiente V de Cramer tiene como finalidad comparar grados de asociacin entre variables medidas a nivel nominal. El Coeficiente V de Cramer asume valores entre 0 y 1, en donde, valores prximos a 0 indican una muy baja asociacin entre las variables y valores prximos a 1 indicas una fuerte asociacin. Finalmente, la prueba de significacin estadstica basada en el Coeficiente de Correlacin de Spearman tiene por objeto determinar la direccin y la intensidad de la asociacin entre dos variables medidas a nivel ordinal. Dicho coeficiente toma valores entre -1 y +1. Los valores cercanos a -1 +1 indican fuerte asociacin entre las variables mientras que los valores cercanos a 0 indican una muy baja asociacin. Si el valor es positivo, la variables varan en la misma direccin, en tanto, si es negativo lo hacen en direcciones opuestas (a medida que aumenta una disminuye la otra). Se debe tener presente que Spearman est pensado para detectar relaciones de tipo lineal, pero no todas las relaciones son lineales (por ejemplo, las curvilneas). No obstante, bien vale la pena recordar al respecto dos cosas. En primer lugar, en la investigacin en ciencias sociales rara vez nos encontramos con variables altamente asociadas. Y, en segundo lugar, la interpretacin de la magnitud de dicha asociacin va a depender del tipo de estudio y si se enmarca en las ciencias sociales o en las llamadas ciencias duras. En particular, qu niveles de asociacin sern considerados como bajos, medios o altos sern determinados por el investigador en funcin de la prctica disciplinaria aplicada al estudio de la temtica que se investiga. No obstante lo anterior existen ciertas convenciones ms o menos generalizadas. En virtud de tales consideraciones se entender en el marco del presente curso, una vez verificada una relacin estadsticamente significativa entre las variables, como: i) una asociacin baja, a los valores inferiores a 0.2; ii) como media, a los valores iguales o mayores que 0.2 y menores que 0.3; y iii) como alta, a los valores superiores o iguales a 0.3. Para las pruebas estadsticas en cuestin, si el p-valor asociado al estadstico de contraste es menor que el nivel de significacin 0.05, se rechazar la hiptesis nula H0 a un nivel de confianza del 95%, y se aceptar la hiptesis alternativa H1 (asociacin entre la variable dependiente y la independiente). El nivel de significacin constituye el valor crtico a partir del cual estamos dispuestos a aceptar o rechazar una hiptesis dentro de ciertos mrgenes razonables de error, siendo el mximo estndar en ciencias sociales de un 5% (95% de confianza). Entre menor sea el nivel de significacin, mayor es el nivel de confianza y, por consiguiente, menor ser la probabilidad de cometer un error en la prueba de hiptesis. Los errores que se pueden cometer son de dos: (i) el error tipo I (alfa), el cual se produce cuando se acepta la hiptesis alternativa siendo sta falsa; y (ii) el error tipo II (beta), el cual se genera cuando se rechaza la hiptesis alternativa siendo sta verdadera.
Utilizamos la prueba Chi-cuadrado en variable ordinales porque el Coeficiente de Correlacin de Spearman (ver ms adelante) nicamente da cuenta de relaciones de tipo lineal.
3.4.
Ejecucin de tablas de contingencia con medidas de asociacin en SPSS
En el caso de trabajar con SPSS en la versin en ingls se deben dar los siguientes pasos: 1. 2. 3. 4. Analizar en la barra del men de SPSS. Estadsticos descriptivos Tablas de contingencia / Ingresar la variable dependiente(s) en filas y independiente(s) en columnas Casillas / Frecuencias > Sacar seleccin en observadas. / Porcentajes > Seleccionar columna. Continuar Estadsticos > Chi-cuadrado, V de Cramer, Correlaciones (Spearman), segn corresponda al nivel de medicin de las variables. Continuar Aceptar Ejemplo de un caso aplicado en SPSS
5. 6. 7. 8. 3.5.
Retomemos nuestra inquietud anterior en trminos de, por ejemplo, responder la siguiente pregunta: El nivel de felicidad depende del NSE de las personas? Es decir, A medida que se aumenta en el NSE, aumenta tambin el nivel de felicidad? La hiptesis alternativa general sera: el nivel de felicidad de las personas se encuentra determinado por su NSE. En tanto, la hiptesis especfica alternativa sera: el nivel de felicidad de las personas aumenta a medida que aumenta su NSE. Se debe tener presente que ambas variables son ordinales y, por ende, podemos aplicar el Coeficiente de Correlacin de Spearman. No hay olvidar dejar fuera los valores perdidos (No sabe (8) / No responde (9)).
10
11
Finalmente se obtendr la siguiente tabla de contingencia con su respectiva prueba de significacin estadstica. Analice e interprete los resultados. Qu puede concluir al respecto?
Tabla de contingencia Consi dere su vida en general, qu tan feliz o infel iz Ud. dira que es su vi da en general? * Nivel Socioeconmico % de Niv el Socioeconmico Niv el Socioeconmico BAJO Considere su v ida en general, qu tan f eliz o inf eliz Ud. dira que es su v ida en general? Total Para nada f eliz No muy f eliz Bastante f eliz Muy f eliz 6,0% 29,5% 41,3% 23,2% 100,0% MEDIO 2,0% 16,6% 53,5% 27,9% 100,0% 48,8% 51,2% 100,0% ALTO Total 3,9% 22,3% 47,6% 26,3% 100,0%
12
Medidas simtri cas

a b
Valor Interv alo por interv alo R de Pearson Ordinal por ordinal N de casos v lidos a. Asumiendo la hiptesis alternat iv a. Correlacin de Spearman ,193 ,180 1499
Error tp. asint. T aproximada ,024 ,025
Sig. aproximada ,000c ,000c
7,601 7,083
b. Empleando el error tpico asintt ico basado en la hiptesis nula. c. Basada en la aproximacin normal.
4.
INTRODUCCIN DE VARIABLES DE CONTROL
4.1. Aspectos conceptuales Dado la complejidad de la realidad, esto es, su multidimensionalidad (que se expresa tanto en las mltiples dimisiones que suele involucrar un concepto como en la multiciplicidad de variables que inciden en la manifestacin de un fenmeno determinado), muchos de los fenmenos sociales no son susceptibles de ser apropiadamente caracterizados a partir del estudio de la relacin entre dos variables (dependiente e independiente). La simple determinacin de la existencia o no de relacin entre dos variables no es suficiente para determinar si dicha relacin es verdadera o espuria (falsa). En ese momento no podemos estar seguros acerca de los resultados encontrados ya que eventualmente stos podran deberse a una tercera variable, que hasta ese momento no ha sido considerada en el anlisis. Y si ese fuera el caso, la relacin original sera explicada no por la variable independiente, sino por esta tercera variable. Dicha variable es nombrada en tal caso como interviniente y pondra en evidencia la falsedad de la relacin original. Eventualmente tambin, la relacin original podra verse modificada nicamente en algunas de las categoras de la tercera variable. En tal caso hablamos de una relacin condicionada. En trminos generales, al momento de elaborar una relacin entre dos variables (particularmente del tipo causa-efecto) se suele introducir una tercera variable, la cual se denomina variable control. Lo que se intenta es determinar si sta posee un determinado efecto sobre la relacin entre la variable dependiente y la independiente que pudiera modificar parcial (condicionada) o totalmente la relacin original (interviniente). Por ende, cuando se descubre una relacin entre dos variables, lo que est en juego es lograr determinar si se trata de una relacin verdadera o espuria. Puesto que las variables en ciencias sociales se encuentran con frecuencia asociadas unas con otras, resulta necesario asegurarse de que exista una asociacin verdadera entre las dos variables originales. Cuando esto no ocurre hablamos de una relacin espuria, o sea, que la relacin aparente entre dos variables se debe a la asociacin de ambas variables con una tercera variable ajena a la relacin original. Por consiguiente, la adecuada determinacin de la relacin bivariable original se logra mediante la inclusin de variables control que eventualmente pudieran invalidar dicha relacin, lo cual es clave para no arribar a conclusiones errneas sobre las relaciones entre variables sin haber dilucidado antes si se trataba o no de relaciones espurias. En definitiva, de lo que se trata es de comprobar si la relacin inicial que aparece entre dos variables es real o aparente, mediante la introduccin de una variable de control. A su vez, interesa comprobar si la ausencia de relacin entre dos variables es tambin real o se debe, por el contrario, a la existencia de una tercera variable que suprime la relacin entre las dos variables originales.
13
Ms concretamente, hay al menos tres situaciones tpicas en la investigacin social en donde las variables de control son necesarias: La primera de ellas se presenta cuando una tcnica estadstica (por ejemplo, Chi Cuadrado de Pearson) muestra que dos variables estn relacionadas, y se duda si entre ambas existe una relacin, no slo estadstica, sino de dependencia (o causal). Es decir, se intenta dilucidar si tal relacin es real o espuria. La segunda, en tanto, se presenta cuando se intenta descubrir relaciones ocultas entre las variables. As por ejemplo, se puede intentar averiguar por qu resulta tan pequea (o tan alta) la intensidad de la relacin entre dos variables cuando todo hace pensar que su relacin debera ser mucho mayor (o menor). Y, en tercer lugar, en muchas ocasiones se presenta la duda acerca de si la relacin que se establece entre dos variables originales funciona en todas las circunstancias o, por el contrario, se manifiesta nicamente bajo determinadas condiciones (categoras de la variable control).
El razonamiento estadstico de la tcnica del control por una tercera variable es muy sencillo. En Primer lugar calculamos la relacin entre la variable dependiente y la independiente y, a continuacin, se repite el procedimiento para cada una de las categoras de la(s) variable(s) control. Ahora bien, en trminos estadsticos, el que la relacin entre dos variables sea independiente de la influencia de terceras variables significa que cualquiera que sea la tercera variable que se introduzca como control, la relacin entre las variables iniciales se mantendr en cada una de las categoras de la(s) variable(s) control. Para el caso contrario, cabe distinguir al menos dos situaciones: i) cuando existe dependencia de terceras variables y la relacin desaparece por completo en todas las categoras (relacin espuria) y ii) cuando existe dependencia de terceras variables y la relacin desaparece parcialmente en alguna de las categoras (relacin de tipo condicional o tambin denominada de interaccin).
4.2. Ejecucin de tablas de contingencia con medidas de asociacin en SPSS, introduciendo variables control
1. 2. 3. 4.
5. 6. 7. 8.
Analizar en la barra del men de SPSS. Estadsticos descriptivos Tablas de contingencia / Ingresar la variable dependiente(s) en filas y la variable independiente(s) en columnas. La(s) variable(s) control se ingresan en capa. Casillas / Frecuencias > Sacar seleccin en observadas. / Porcentajes > Seleccionar columna. Continuar Estadsticos > Chi-cuadrado, V de Cramer, Correlaciones (Spearman), segn corresponda al nivel de medicin de las variables. Continuar Aceptar
14
4.3.
Anlisis de los datos
Al momento de escribir el informe de anlisis de datos usted debe tener en consideracin: 4.3.1. Para el caso de la prueba de significacin estadstica Chi-cuadrado de Pearson Situacin 1: Asociacin. En este caso usted debiera sealar que: existe asociacin estadsticamente significativa entre la variable dependiente y la variable independiente. Ello ocurre cuando el estadstico de contraste es menor a 0.05. Situacin 2: No asociacin. De modo anlogo al caso anterior usted debiera indicar que: no existe asociacin estadsticamente significativa entre la variable dependiente y la variable independiente. Ello ocurre cuando el estadstico de contraste es mayor a 0.05. *** Se debe prestar especial atencin al porcentaje de celdas con frecuencia esperada inferior a 5. Que no supere el 25% de las celdas. Si ese fuera el caso se recomienda recodificar, ya que de lo contrario se corre el riesgo de llegar a una conclusin errnea.
4.3.2. Para el caso del Coeficiente V de Cramer y Spearman

Slo consideraremos el Coeficiente V de Cramer como parte del anlisis cuando Chi-cuadrado de Pearson sea estadsticamente significativo. Es decir, cuando exista asociacin entre la variable dependiente y la variable independiente. Usualmente, por lo dems, cuando Chi-cuadrado de Pearson es significativo, lo es tambin V de Cramer. Situacin 1: Existe una intensidad de asociacin baja (0.0 < V de Cramer 0.2) entre la variable dependiente y la variable independiente. Situacin 2: Existe una intensidad de asociacin media (0.2 < V de Cramer 0.3) entre la variable dependiente y la variable independiente. Situacin 3: Existe una intensidad de asociacin alta (0.3 < V de Cramer 1.0) entre la variable dependiente y la variable independiente.
4.3.3. Para el caso del Coeficiente de Correlacin de Spearman

La intensidad de la relacin se interpreta tal como el coeficiente de V de Cramer. Luego debe indicarse la direccin de la relacin: si es directa o inversamente proporcional. 4.3.4. Para el caso de la introduccin de variables control Al realizar un cruce entre la variable dependiente (Y) y la variable independiente (Y) incluyendo una variable de control (C), se debe realizar un anlisis de los datos de modo similar a cuando trabajamos con dos variables. As, nos encontraremos con las siguientes situaciones: Situacin 1: Dependencia/Independencia
15
La variable Y depende de la variable X, independientemente de la variable C. Tal situacin ocurre cuando el estadstico de contraste es menor a 0.05 en cada una de las categoras de la variable de control. La variable Y no depende de la variable X, independientemente de la variable C. Dicha situacin ocurre cuando el estadstico de contraste es mayor a 0.05 en cada una de las categoras de la variable de control. Situacin 2: Relacin condicionada. La variable Y depende de la variable X, salvo en el caso de las categoras de variable C (en donde se da una asociacin no significativa). La variable Y no depende de la variable X, salvo en el caso de las categoras de la variable C (en donde se da una asociacin significativa). Situacin 3: Relacin espuria La variable Y no depende de la variable X sino de la variable C (no existe asociacin significativa en cada una de las categoras de la variable control).
5.
EL PAPEL DE LA TEORA Y LOS MODELOS DE RELACIONES
En trminos generales asumimos que no resulta razonable llevar a cabo una investigacin de carcter emprico sin un marco terico o analtico apropiado a nuestras preguntas (problema) de investigacin. La teora juega al menos cinco funciones fundamentales. En primer lugar, nos permite delimitar aquellos mbitos de realidad a los que se le debe prestar atencin. En segundo lugar, nos permite discriminar cules han de ser las variables relevantes en el estudio: variable dependiente, independientes y de control. En tercer lugar, nos permite establecer el sentido de tales relaciones (modelos) y formular, por consiguiente, hiptesis de trabajo. Y, en quinto lugar, nos permite interpretar los resultados encontrados. Sin una adecuada teora no podramos, por ejemplo, distinguir entre una simple relacin estadstica de una causal. La elaboracin de representaciones acerca del sentido de las relaciones entre las variables de un problema de investigacin se puede llevar a cabo mediante frmulas matemticas relativamente complejas o mediante representaciones conceptuales a travs de diagramas de flechas (que son ms frecuentes en las ciencias sociales). Tales representaciones son especialmente relevantes en el anlisis estadstico multivariado. Nos permite establecer de modo sencillo las mltiples relaciones que se desprenden del marco terico/analtico, lo cual es clave para la formulacin de las hiptesis de investigacin, de modo tal de orientar las decisiones que se deben ir tomando al momento de seleccionar e interpretar las diferentes pruebas estadsticas (asociadas con la prueba de hiptesis). ___________________________________________________________________________ Bibliografa
Field, Andy (2009). Discovering Statistics Using SPSS for Windows. Third Edition (Sage, London). Garca Ferrando, Manuel (1997). Socioestadstica (Alianza Editorial, Madrid). Snchez Carrin, Juan J. (1995). Manual de Anlisis de Datos (Alianza Editorial, Madrid). Ritzer, Ferris J. (2003). Estadstica para las Ciencias Sociales (McGraw-Hill, Mxico).
16

Análisis Univariado, Bivariado y Variables Control (30.03.10) - J. Fierro

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Análisis Univariado, Bivariado y Variables Control (30.03.10) - J. Fierro

Cargado por

Copyright:

Formatos disponibles

ANLISIS ESTADSTICO UNIVARIADO, BIVARIADO Y VARIABLES CONTROL1

Segn el lugar que ocupan en la investigacin

*** En una curva de distribucin normal coinciden la media, la mediana y la moda.

Medidas de dispersin: desviacin estndar y varianza

2.5. Ejecucin de tablas de frecuencias, medidas de tendencia central y de dispersin en SPSS

Ejemplo de un caso aplicado en SPSS

Finalmente, la tabla de distribucin de frecuencias sera la siguiente:

Porcentaje 3,8 22,2 47,4 26,2 99,5 ,1 ,4 ,5 100,0

RELACIONES ENTRE VARIABLES NOMINALES Y ORDINALES

Ejecucin de tablas de contingencia con medidas de asociacin en SPSS

Medidas simtri cas

Error tp. asint. T aproximada ,024 ,025

Sig. aproximada ,000c ,000c

INTRODUCCIN DE VARIABLES DE CONTROL

Anlisis de los datos

4.3.2. Para el caso del Coeficiente V de Cramer y Spearman

4.3.3. Para el caso del Coeficiente de Correlacin de Spearman

EL PAPEL DE LA TEORA Y LOS MODELOS DE RELACIONES

También podría gustarte