Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis Bivariado PDF
Analisis Bivariado PDF
VARIABLES CONTROL1
El presente documento de trabajo tiene por objeto enfatizar de un modo sencillo algunos de
los contenidos vistos en clases en relación con el análisis univariado, bivariado y variables
control. Cada uno de los aspectos aquí tratados puede ser profundizado con el apoyo de la
bibliografía sugerida para el curso, según se ha indicado en el programa. Por tratarse de un
texto preliminar, mucho de lo que aquí se expone está sujeto a futuras correcciones y
actualizaciones, constituyendo el primero de una serie de apuntes que serán entregados en el
transcurso del semestre académico.
1. TIPOS DE VARIABLES
Las variables pueden ser clasificadas según diferentes tipos de criterios, entre ellos podemos
mencionar el nivel de medición y el lugar que ocupan en la investigación.
El nivel de medición de una variable determina tanto el tipo de operaciones matemáticas que
puede realizarse (suma, resta, multiplicación, división, etc.) como el tipo de técnicas
estadísticas correspondiente para la prueba de hipótesis. De acuerdo a su nivel de medición
las variables pueden ser clasificadas en nominales, ordinales, intervalares y de razón.
En las variables ordinales, a diferencia de las nominales, los valores de la variable pueden ser
ordenados a partir de algún criterio de jerarquización. Se puede establecer por consiguiente un
orden ascendente o descendente entre los distintos valores (o categorías). Ejemplo: NSE
(bajo, medio, alto), percepción de progreso del país (progresando, estancado, en decadencia),
etc.
En las variables intervalares, al igual que las ordinales, los valores de la variable pueden ser
jerarquizados. Y, a su vez, a diferencia de las ordinales, los distintos valores de la variable son
equidistantes. Existen intervalos regulares entre las puntuaciones de la variable en su escala
de medición. Ejemplo: temperatura. En ciencias sociales se asume que, de acuerdo a una
cierta convención no ortodoxa, las variables medidas a través de escalas Likert de cinco
categorías (muy de acuerdo, de acuerdo, ni de acuerdo/ni en desacuerdo, en desacuerdo, muy
en desacuerdo) se comportan como si fueran variables intervalares. No obstante, debe
chequearse si distribución si se ajusta o no a una curva normal.
1
Profesor Jaime Fierro, Sociólogo y Magíster en Ciencias Sociales de la Universidad de Chile. Ph.D. en Ciencia
Política de la Universidad de Essex, Inglaterra. Actualizado al primer semestre de 2010.
1
Las variables de razón se diferencian de las intervalares por el hecho de que el “0” no es un
valor fijado de un modo arbitrario (como podría ser el caso de la temperatura en donde el
valor de 0 grados no significa ausencia de temperatura), sino que es real y representa la
ausencia del atributo. Ejemplo: mortalidad, edad, ingresos, etc.
*** Se debe tener presente el hecho de que cualquier variable puede ser recodificada en un
nivel inferior de medición, pero no así lo contrario. Podemos, por ejemplo, recodificar una
variable intervalar en ordinal o nominal, pero en ningún caso podemos pasar de una variable
medida a nivel nominal a una de tipo ordinal o intervalar.
Variables intervinientes: son aquellas variables que harían que la relación inicial entre la
variable dependiente y la independiente sea: i) falsa en el caso de ser verdadera inicialmente;
o ii) verdadera en el caso de ser falsa inicialmente. Es decir, las variaciones o no en los
valores de las puntuaciones de la variable dependiente no se deben a las variaciones en los
valores de la variable dependiente, sino más bien a una acción de una tercera variable.
Variables condicionantes: son variables que median la relación entre la variable dependiente
y la independiente sin modificarla completamente, salvo en algunas de sus categorías o
valores.
2
2. ANÁLISIS UNIVARIADO
La distribución de frecuencias nos indica el número de casos que hay en cada categoría de la
variable. A partir de dichos valores, en una tabla de frecuencias, se calcula el porcentaje
(respecto del total de observaciones), porcentaje válido (excluido los valores perdidos) y el
porcentaje acumulado (porcentaje de la primera categoría, luego éste más el de la segunda
categoría y así sucesivamente). Se aplica para variables nominales, ordinales y en cierto tipo
de variables intervalares (por ejemplo, en escalas Likert).
Las medidas de tendencia central dan cuenta del tipo de distribución que tienen los valores de
la variable respecto de un valor típico, o puntuación central, a partir del cual se agrupan. Se
calculan para variables medidas a nivel nominal, ordinal y en algunas intervalares (por
ejemplo, en escalas Likert).
La mediana es el valor que divide por la mitad a las puntuaciones de la variable: los que están
por debajo de éste y los que están por encima. Es decir, es el valor que divide en dos mitades
a las observaciones.
La moda es el valor que más que más se repite del conjunto de observaciones, pudiendo haber
más de una moda (bimodal o multimodal).
3
2.4. Medidas de dispersión: desviación estándar y varianza
Las medidas de dispersión indican el grado variabilidad de de los datos respecto de la media
(promedio). Se debe tener presente que una propiedad de la media es que la suma de las
diferencias de todos los valores de la variable respecto de la media es siempre “0”. Es por ello
que para el cálculo de la varianza y la desviación estándar la se procede a elevar la sumatoria
de las diferencias al cuadrado.
S 2
( x x) 2
S
( x x) 2
4
2.6. Ejemplo de un caso aplicado en SPSS
Si alguien quisiera saber la proporción de chilenos que se considera “feliz” podemos intentar
responder dicha pregunta a partir de la Encuesta CEP Diciembre de 2008 (www.cepchile.cl),
ya que contiene una pregunta al respecto. Puesto que la variable ha sido medida en una escala
Likert de cuatro categorías, bastaría extraer simplemente una distribución de frecuencias.
Antes de eso, sin embargo, los valores “No sabe” (codificados usualmente con valores 8) y
“No contesta” (codificados usualmente con valores 9) habría que incluirlos como “Valores
perdidos” y, de este modo, obtendremos el porcentaje válido de casos para la variable
felicidad.
5
Luego ya estamos en condiciones de realizar una distribución de frecuencias de modo más
adecuado. Continúenos entonces con el resto del procedimiento:
6
Finalmente, la tabla de distribución de frecuencias sería la siguiente:
Considere su vida en general, ¿qué tan feliz o infeliz Ud. diría que es su vida en
general?
Porcentaje Porcentaje
Frecuencia Porcentaje v álido acumulado
Válidos Para nada f eliz 57 3,8 3,8 3,8
No muy f eliz 333 22,2 22,3 26,1
Bastante f eliz 713 47,4 47,6 73,7
Muy f eliz 394 26,2 26,3 100,0
Total 1498 99,5 100,0
Perdidos No sabe 1 ,1
No contesta 6 ,4
Total 7 ,5
Total 1505 100,0
A partir de estos datos surgen una serie de posibles preguntas al respecto, por ejemplo,
¿Depende el nivel de felicidad de las personas del sexo, la edad, la escolaridad o el NSE?
Responder preguntas como esta requiere, sin embargo, de un tipo de análisis distinto. En
estadística lo denominamos Análisis Bivariado, ya que incluye una variable dependiente y al
menos una variable independiente.
7
3. RELACIONES ENTRE VARIABLES NOMINALES Y ORDINALES
En las ciencias sociales a menudo se desea determinar la existencia o no de relación entre dos
variables, para lo cual se realizan diferentes pruebas de significación estadística. La forma en
que se relacionan dos variables se denomina asociación entre dos variables. El interés de este
tipo de análisis se centra principalmente en la forma en que se distribuye la variable
dependiente en función de las diferentes categorías o valores de la variable independiente. Es
decir, la variable que atrae primordialmente la atención del investigador, y cuya variación
trata de explicar, se llama variable dependiente, porque se supone que los valores que toma
dicha variable dependen de los valores que presentan otras variables. Estas variables que se
suponen influyen en los valores que toma la variable dependiente son las variables
independientes (explicativas o causales), ya que permiten conocer por qué varía la variable
dependiente de la forma que lo hace en una determinada población (usualmente una muestra).
Sin embargo, los resultados que aparecen al establecer relaciones significativas entre dos variables
son de naturaleza descriptiva y tales resultados no explican por qué ocurre dicha relación. Esto es,
una correlación entre dos variables no implica necesariamente una relación causal entre ellas
puesto que en cualquier correlación podría existir una tercera variable que explique la asociación
entre las dos variables que han sido medidas (relación espuria). A su vez, se debe verificar que la
variable independiente (causa) anteceda temporalmente a la variable dependiente (efecto). Del
mismo modo, se hace necesaria la existencia de una teoría que nos permita discriminar entre las
simples relaciones estadísticas y las relaciones causales propiamente tales.
A la base de dicho análisis se encuentra la “teoría” y las “hipótesis” que se puedan desprender
de ésta. En otras palabras, en el estudio de relaciones entre variables intentamos testear
empíricamente hipótesis que nos resultan plausibles a la luz de un cierto marco teórico-
analítico. Una hipótesis no es otra cosa que una respuesta tentativa a la pregunta de
investigación (problema). Es una predicción respecto del posible resultado que se espera
encontrar. Y, en el estudio de relaciones entre variables, ésta guarda relación con el hecho de
determinar si las variaciones en los valores de la variable independiente se encuentran o no
asociados a las variaciones en los valores de la variable dependiente. Puesto que una hipótesis
requiere de verificación empírica, se hace necesario realizar una prueba de significación
estadística para determinar si la hipótesis planteada se verifica o no.
2
Una cuarta característica hace referencia a la naturaleza de la relación. Es decir, a la forma de distribución de X
respecto de Y, ya sea de forma lineal, curvilínea o de otra naturaleza.
8
La prueba de significación estadística basada en el coeficiente Chi Cuadrado de Pearson tiene
como fin examinar asociación entre variables categóricas (nominales u ordinales).3 Existe
asociación entre variables cuando los valores de una de ellas dependen de los valores de otra.
Cuando dos variables están relacionadas es posible predecir los valores de la variable dependiente
en función de los valores de las variables independientes. No existe relación cuando éstas son
independientes. Dos variables independientes no tienen nada en común. El estadístico Ji-
cuadrado, sin embargo, no permite estudiar la intensidad de la relación entre las variables.
No obstante, bien vale la pena recordar al respecto dos cosas. En primer lugar, en la investigación
en ciencias sociales rara vez nos encontramos con variables altamente asociadas. Y, en segundo
lugar, la interpretación de la magnitud de dicha asociación va a depender del tipo de estudio y si
se enmarca en las ciencias sociales o en las llamadas ciencias duras. En particular, qué niveles de
asociación serán considerados como bajos, medios o altos serán determinados por el investigador
en función de la práctica disciplinaria aplicada al estudio de la temática que se investiga. No
obstante lo anterior existen ciertas convenciones más o menos generalizadas. En virtud de tales
consideraciones se entenderá en el marco del presente curso, una vez verificada una relación
estadísticamente significativa entre las variables, como: i) una asociación baja, a los valores
inferiores a 0.2; ii) como media, a los valores iguales o mayores que 0.2 y menores que 0.3; y iii)
como alta, a los valores superiores o iguales a 0.3.
3
Utilizamos la prueba Chi-cuadrado en variable ordinales porque el Coeficiente de Correlación de Spearman
(ver más adelante) únicamente da cuenta de relaciones de tipo lineal.
9
3.4. Ejecución de tablas de contingencia con medidas de asociación en SPSS
En el caso de trabajar con SPSS en la versión en inglés se deben dar los siguientes pasos:
Retomemos nuestra inquietud anterior en términos de, por ejemplo, responder la siguiente
pregunta: ¿El nivel de felicidad depende del NSE de las personas? Es decir, ¿A medida que se
aumenta en el NSE, aumenta también el nivel de felicidad? La hipótesis alternativa general
sería: el nivel de felicidad de las personas se encuentra determinado por su NSE. En tanto, la
hipótesis específica alternativa sería: el nivel de felicidad de las personas aumenta a medida
que aumenta su NSE.
Se debe tener presente que ambas variables son ordinales y, por ende, podemos aplicar el
Coeficiente de Correlación de Spearman. No hay olvidar dejar fuera los valores perdidos (No
sabe (8) / No responde (9)).
10
11
Finalmente se obtendrá la siguiente tabla de contingencia con su respectiva prueba de
significación estadística. Analice e interprete los resultados. ¿Qué puede concluir al respecto?
Tabla de contingencia Consi dere su vida en general, ¿qué tan feliz o infel iz Ud. diría que
es su vi da en general? * Nivel Socioeconómico
% de Niv el Socioeconómico
Niv el Socioeconómico
BAJO MEDIO ALTO Total
Considere su v ida en Para nada f eliz 6,0% 2,0% 3,9%
general, ¿qué tan No muy f eliz 29,5% 16,6% 22,3%
f eliz o inf eliz Ud. diría
que es su v ida en Bastante f eliz 41,3% 53,5% 48,8% 47,6%
general? Muy f eliz 23,2% 27,9% 51,2% 26,3%
Total 100,0% 100,0% 100,0% 100,0%
12
Medidas simétri cas
Sig.
a b
Valor Error típ. asint. T aproximada aproximada
Interv alo por interv alo R de Pearson ,193 ,024 7,601 ,000c
Ordinal por ordinal Correlación de Spearman ,180 ,025 7,083 ,000c
N de casos v álidos 1499
a. Asumiendo la hipótesis alternat iv a.
b. Empleando el error típico asintót ico basado en la hipótesis nula.
c. Basada en la aproximación normal.
Dado la complejidad de la realidad, esto es, su multidimensionalidad (que se expresa tanto en las
múltiples dimisiones que suele involucrar un concepto como en la multiciplicidad de variables
que inciden en la manifestación de un fenómeno determinado), muchos de los fenómenos sociales
no son susceptibles de ser apropiadamente caracterizados a partir del estudio de la relación entre
dos variables (dependiente e independiente). La simple determinación de la existencia o no de
relación entre dos variables no es suficiente para determinar si dicha relación es verdadera o
espuria (falsa). En ese momento no podemos estar seguros acerca de los resultados encontrados ya
que eventualmente éstos podrían deberse a una tercera variable, que hasta ese momento no ha sido
considerada en el análisis. Y si ese fuera el caso, la relación original sería explicada no por la
variable independiente, sino por esta tercera variable. Dicha variable es nombrada en tal caso
como “interviniente” y pondría en evidencia la falsedad de la relación original. Eventualmente
también, la relación original podría verse modificada únicamente en algunas de las categorías de
la tercera variable. En tal caso hablamos de una relación “condicionada”.
En términos generales, al momento de elaborar una relación entre dos variables (particularmente
del tipo causa-efecto) se suele introducir una tercera variable, la cual se denomina variable
control. Lo que se intenta es determinar si ésta posee un determinado efecto sobre la relación entre
la variable dependiente y la independiente que pudiera modificar parcial (condicionada) o
totalmente la relación original (interviniente). Por ende, cuando se descubre una relación entre dos
variables, lo que está en juego es lograr determinar si se trata de una relación verdadera o espuria.
Puesto que las variables en ciencias sociales se encuentran con frecuencia asociadas unas con
otras, resulta necesario asegurarse de que exista una asociación verdadera entre las dos variables
originales. Cuando esto no ocurre hablamos de una relación espuria, o sea, que la relación
aparente entre dos variables se debe a la asociación de ambas variables con una tercera variable
ajena a la relación original.
13
Más concretamente, hay al menos tres situaciones típicas en la investigación social en donde las
variables de control son necesarias:
La primera de ellas se presenta cuando una técnica estadística (por ejemplo, Chi Cuadrado de
Pearson) muestra que dos variables están relacionadas, y se duda si entre ambas existe una
relación, no sólo estadística, sino de dependencia (o causal). Es decir, se intenta dilucidar si tal
relación es real o espuria.
La segunda, en tanto, se presenta cuando se intenta descubrir relaciones ocultas entre las
variables. Así por ejemplo, se puede intentar averiguar por qué resulta tan pequeña (o tan alta)
la intensidad de la relación entre dos variables cuando todo hace pensar que su relación
debería ser mucho mayor (o menor).
Y, en tercer lugar, en muchas ocasiones se presenta la duda acerca de si la relación que se
establece entre dos variables originales funciona en todas las circunstancias o, por el contrario,
se manifiesta únicamente bajo determinadas condiciones (categorías de la variable control).
El razonamiento estadístico de la técnica del control por una tercera variable es muy sencillo. En
Primer lugar calculamos la relación entre la variable dependiente y la independiente y, a
continuación, se repite el procedimiento para cada una de las categorías de la(s) variable(s)
control.
Ahora bien, en términos estadísticos, el que la relación entre dos variables sea independiente de la
influencia de terceras variables significa que cualquiera que sea la tercera variable que se
introduzca como control, la relación entre las variables iniciales se mantendrá en cada una de las
categorías de la(s) variable(s) control. Para el caso contrario, cabe distinguir al menos dos
situaciones: i) cuando existe dependencia de terceras variables y la relación desaparece por
completo en todas las categorías (relación espuria) y ii) cuando existe dependencia de terceras
variables y la relación desaparece parcialmente en alguna de las categorías (relación de tipo
condicional o también denominada de interacción).
14
4.3. Análisis de los datos
Situación 1: Asociación.
En este caso usted debiera señalar que: existe asociación estadísticamente significativa entre
la “variable dependiente” y la “variable independiente”. Ello ocurre cuando el estadístico de
contraste es menor a 0.05.
Situación 2: No asociación.
De modo análogo al caso anterior usted debiera indicar que: no existe asociación
estadísticamente significativa entre la “variable dependiente” y la “variable independiente”.
Ello ocurre cuando el estadístico de contraste es mayor a 0.05.
*** Se debe prestar especial atención al porcentaje de celdas con frecuencia esperada
inferior a 5. Que no supere el 25% de las celdas. Si ese fuera el caso se recomienda
recodificar, ya que de lo contrario se corre el riesgo de llegar a una conclusión errónea.
Sólo consideraremos el Coeficiente V de Cramer como parte del análisis cuando Chi-cuadrado de
Pearson sea estadísticamente significativo. Es decir, cuando exista asociación entre la variable
dependiente y la variable independiente. Usualmente, por lo demás, cuando Chi-cuadrado de
Pearson es significativo, lo es también V de Cramer.
Situación 1: Existe una intensidad de asociación baja (0.0 < V de Cramer 0.2) entre la “variable
dependiente” y la “variable independiente”.
Situación 2: Existe una intensidad de asociación media (0.2 < V de Cramer 0.3) entre la
“variable dependiente” y la “variable independiente”.
Situación 3: Existe una intensidad de asociación alta (0.3 < V de Cramer 1.0) entre la “variable
dependiente” y la “variable independiente”.
Al realizar un cruce entre la variable dependiente (Y) y la variable independiente (Y) incluyendo
una variable de control (C), se debe realizar un análisis de los datos de modo similar a cuando
trabajamos con dos variables. Así, nos encontraremos con las siguientes situaciones:
Situación 1: Dependencia/Independencia
15
La “variable Y” depende de la “variable X”, independientemente de la “variable C”. Tal situación
ocurre cuando el estadístico de contraste es menor a 0.05 en cada una de las categorías de la
variable de control.
La “variable Y” depende de la “variable X”, salvo en el caso de las “categorías de variable C” (en
donde se da una asociación no significativa).
En términos generales asumimos que no resulta razonable llevar a cabo una investigación de
carácter empírico sin un marco teórico o analítico apropiado a nuestras preguntas (problema)
de investigación.
La teoría juega al menos cinco funciones fundamentales. En primer lugar, nos permite
delimitar aquellos ámbitos de realidad a los que se le debe prestar atención. En segundo lugar,
nos permite discriminar cuáles han de ser las variables relevantes en el estudio: variable
dependiente, independientes y de control. En tercer lugar, nos permite establecer el sentido de
tales relaciones (modelos) y formular, por consiguiente, hipótesis de trabajo. Y, en quinto
lugar, nos permite interpretar los resultados encontrados. Sin una adecuada teoría no
podríamos, por ejemplo, distinguir entre una simple relación estadística de una causal.
La elaboración de representaciones acerca del sentido de las relaciones entre las variables de
un problema de investigación se puede llevar a cabo mediante fórmulas matemáticas
relativamente complejas o mediante representaciones conceptuales a través de diagramas de
flechas (que son más frecuentes en las ciencias sociales). Tales representaciones son
especialmente relevantes en el análisis estadístico multivariado. Nos permite establecer de
modo sencillo las múltiples relaciones que se desprenden del marco teórico/analítico, lo cual
es clave para la formulación de las hipótesis de investigación, de modo tal de orientar las
decisiones que se deben ir tomando al momento de seleccionar e interpretar las diferentes
pruebas estadísticas (asociadas con la prueba de hipótesis).
___________________________________________________________________________
Bibliografía
Field, Andy (2009). Discovering Statistics Using SPSS for Windows. Third Edition (Sage, London).
García Ferrando, Manuel (1997). Socioestadística (Alianza Editorial, Madrid).
Sánchez Carrión, Juan J. (1995). Manual de Análisis de Datos (Alianza Editorial, Madrid).
Ritzer, Ferris J. (2003). Estadística para las Ciencias Sociales (McGraw-Hill, México).
16