Analisis Bivariado PDF

ANÁLISIS ESTADÍSTICO UNIVARIADO, BIVARIADO Y
VARIABLES CONTROL1
El presente documento de trabajo tiene por objeto enfatizar de un modo sencillo algunos de
los contenidos vistos en clases en relación con el análisis univariado, bivariado y variables
control. Cada uno de los aspectos aquí tratados puede ser profundizado con el apoyo de la
bibliografía sugerida para el curso, según se ha indicado en el programa. Por tratarse de un
texto preliminar, mucho de lo que aquí se expone está sujeto a futuras correcciones y
actualizaciones, constituyendo el primero de una serie de apuntes que serán entregados en el
transcurso del semestre académico.
1. TIPOS DE VARIABLES
Las variables pueden ser clasificadas según diferentes tipos de criterios, entre ellos podemos
mencionar el nivel de medición y el lugar que ocupan en la investigación.
1.1. Según nivel de medición
El nivel de medición de una variable determina tanto el tipo de operaciones matemáticas que
puede realizarse (suma, resta, multiplicación, división, etc.) como el tipo de técnicas
estadísticas correspondiente para la prueba de hipótesis. De acuerdo a su nivel de medición
las variables pueden ser clasificadas en nominales, ordinales, intervalares y de razón.
Las variables nominales, también llamadas variables cualitativas o categóricas, hacen

referencia a ciertas cualidades o atributos en los valores de una variable. Es decir, dichos
valores (categorías) no pueden ser ordenados a partir de un criterio de jerarquía. Ejemplo:
sexo, religión, zona (urbano/rural), etc. En el caso de sexo, si asignamos valor 1 = hombre y
valor 2 = mujer, difícilmente resulta razonable sostener que mujer vale dos veces hombre. De
igual modo queda de manifiesto que los valores son asignados de un modo arbitrario.
Perfectamente pudimos haber otorgado el valor 1 a mujer (y no el valor 2).
En las variables ordinales, a diferencia de las nominales, los valores de la variable pueden ser
ordenados a partir de algún criterio de jerarquización. Se puede establecer por consiguiente un
orden ascendente o descendente entre los distintos valores (o categorías). Ejemplo: NSE
(bajo, medio, alto), percepción de progreso del país (progresando, estancado, en decadencia),
etc.
En las variables intervalares, al igual que las ordinales, los valores de la variable pueden ser
jerarquizados. Y, a su vez, a diferencia de las ordinales, los distintos valores de la variable son
equidistantes. Existen intervalos regulares entre las puntuaciones de la variable en su escala
de medición. Ejemplo: temperatura. En ciencias sociales se asume que, de acuerdo a una
cierta convención no ortodoxa, las variables medidas a través de escalas Likert de cinco
categorías (muy de acuerdo, de acuerdo, ni de acuerdo/ni en desacuerdo, en desacuerdo, muy
en desacuerdo) se comportan como si fueran variables intervalares. No obstante, debe
chequearse si distribución si se ajusta o no a una curva normal.
1
Profesor Jaime Fierro, Sociólogo y Magíster en Ciencias Sociales de la Universidad de Chile. Ph.D. en Ciencia
Política de la Universidad de Essex, Inglaterra. Actualizado al primer semestre de 2010.
1
Las variables de razón se diferencian de las intervalares por el hecho de que el “0” no es un
valor fijado de un modo arbitrario (como podría ser el caso de la temperatura en donde el
valor de 0 grados no significa ausencia de temperatura), sino que es real y representa la
ausencia del atributo. Ejemplo: mortalidad, edad, ingresos, etc.
*** Se debe tener presente el hecho de que cualquier variable puede ser recodificada en un
nivel inferior de medición, pero no así lo contrario. Podemos, por ejemplo, recodificar una
variable intervalar en ordinal o nominal, pero en ningún caso podemos pasar de una variable
medida a nivel nominal a una de tipo ordinal o intervalar.
1.2. Según el lugar que ocupan en la investigación
Variable dependiente: corresponde a la variable (fenómeno) que intentamos caracterizar o

explicar.
Variable(s) independiente(s): corresponde(n) a la(s) variable(s) que explicaría(n) las

variaciones en los valores de la variable dependiente. En última instancia serían las causas del
fenómeno bajo estudio. El proceso de corroboración de relaciones de tipo casual requerirá,
entre otras cosas, del descarte de relaciones espurias (falsas).
Variables de control: se introducen con la finalidad de determinar si la relación inicial entre

la variable dependiente y la(s) independiente(s) es verdadera. Esto permitiría aumentar la
validez interna de un estudio (relación causa-efecto).
Variables intervinientes: son aquellas variables que harían que la relación inicial entre la
variable dependiente y la independiente sea: i) falsa en el caso de ser verdadera inicialmente;
o ii) verdadera en el caso de ser falsa inicialmente. Es decir, las variaciones o no en los
valores de las puntuaciones de la variable dependiente no se deben a las variaciones en los
valores de la variable dependiente, sino más bien a una acción de una tercera variable.
Variables condicionantes: son variables que median la relación entre la variable dependiente
y la independiente sin modificarla completamente, salvo en algunas de sus categorías o
valores.
2
2. ANÁLISIS UNIVARIADO
Al realizar un análisis univariado nos concentramos en cada variable de modo independiente.

Usualmente trabajamos con distribuciones de frecuencias, medidas de tendencia central y
medidas de dispersión.
2.2. Distribución de frecuencias
La distribución de frecuencias nos indica el número de casos que hay en cada categoría de la
variable. A partir de dichos valores, en una tabla de frecuencias, se calcula el porcentaje
(respecto del total de observaciones), porcentaje válido (excluido los valores perdidos) y el
porcentaje acumulado (porcentaje de la primera categoría, luego éste más el de la segunda
categoría y así sucesivamente). Se aplica para variables nominales, ordinales y en cierto tipo
de variables intervalares (por ejemplo, en escalas Likert).
Además de la tabla de frecuencias también es posible hacer representaciones gráficas tales

como: gráfico de barras, gráfico circular o un polígono de frecuencias.
2.3 Medidas de tendencia central: media, mediana y moda
Las medidas de tendencia central dan cuenta del tipo de distribución que tienen los valores de
la variable respecto de un valor típico, o puntuación central, a partir del cual se agrupan. Se
calculan para variables medidas a nivel nominal, ordinal y en algunas intervalares (por
ejemplo, en escalas Likert).
La media o promedio corresponde a la suma de todas las puntuaciones de la variable dividida

por el número total de casos.
La mediana es el valor que divide por la mitad a las puntuaciones de la variable: los que están
por debajo de éste y los que están por encima. Es decir, es el valor que divide en dos mitades
a las observaciones.
La moda es el valor que más que más se repite del conjunto de observaciones, pudiendo haber
más de una moda (bimodal o multimodal).
*** En una curva de distribución normal coinciden la media, la mediana y la moda.
3
2.4. Medidas de dispersión: desviación estándar y varianza
Las medidas de dispersión indican el grado variabilidad de de los datos respecto de la media
(promedio). Se debe tener presente que una propiedad de la media es que la suma de las
diferencias de todos los valores de la variable respecto de la media es siempre “0”. Es por ello
que para el cálculo de la varianza y la desviación estándar la se procede a elevar la sumatoria
de las diferencias al cuadrado.
La varianza es el valor promedio del cuadrado de las puntuaciones respecto de la media. Se

utiliza mucho en pruebas de inferencia estadística (de la muestra al universo), pero su unidad
de medida no es directamente interpretable (ya que está al cuadrado), razón por la cual se
recurre a la desviación estándar. Su fórmula de cálculo es la siguiente:
S 2

 ( x  x) 2
La desviación estándar o típica es el promedio de desviación de los valores de las

observaciones respecto de la media, expresada en los valores originales de la medición de la
variable. Esto no es otra cosa que la raíz cuadrada de la varianza. Cuanto más se aleje el valor
respecto de la media, mayor será la desviación estándar. Se aplica a variables medidas a nivel
intervalar o de razón. Su fórmula de cálculo es la siguiente:
S
 ( x  x) 2
2.5. Ejecución de tablas de frecuencias, medidas de tendencia central y de dispersión en

SPSS
La serie de comanda a ejecutar serían los siguientes:
1. Analizar en la barra del menú de SPSS

2. Estadísticos descriptivos
3. Frecuencias / Ingresar variables
4. Estadísticos > Tendencia central / Seleccionar media, mediana y moda, según
corresponda al nivel de medición de las variables
Dispersión / Seleccionar desviación estándar y varianza. Sólo para
variables intervalares
5. Continuar
6. Aceptar
4
2.6. Ejemplo de un caso aplicado en SPSS
Si alguien quisiera saber la proporción de chilenos que se considera “feliz” podemos intentar
responder dicha pregunta a partir de la Encuesta CEP Diciembre de 2008 (www.cepchile.cl),
ya que contiene una pregunta al respecto. Puesto que la variable ha sido medida en una escala
Likert de cuatro categorías, bastaría extraer simplemente una distribución de frecuencias.
Antes de eso, sin embargo, los valores “No sabe” (codificados usualmente con valores 8) y
“No contesta” (codificados usualmente con valores 9) habría que incluirlos como “Valores
perdidos” y, de este modo, obtendremos el porcentaje válido de casos para la variable
felicidad.
Los pasos serían:

1. Seleccionar la columna de valores en la variable felicidad e identificar los valores
asociados a “No sabe” (8) y “No contesta” (9)
2. Aceptar
3. Seleccionar la columna de valores perdidos en la variable felicidad e ingresar los
valores 8 y 9 como valores perdidos
4. Aceptar
5
Luego ya estamos en condiciones de realizar una distribución de frecuencias de modo más
adecuado. Continúenos entonces con el resto del procedimiento:
1. Analizar en la barra del menú de SPSS

3. Frecuencias / seleccionar e ingresar la variable felicidad a la casilla de variables
4. Continuar
5. Aceptar
6
Finalmente, la tabla de distribución de frecuencias sería la siguiente:
Considere su vida en general, ¿qué tan feliz o infeliz Ud. diría que es su vida en
general?
Porcentaje Porcentaje
Frecuencia Porcentaje v álido acumulado
Válidos Para nada f eliz 57 3,8 3,8 3,8
No muy f eliz 333 22,2 22,3 26,1
Bastante f eliz 713 47,4 47,6 73,7
Muy f eliz 394 26,2 26,3 100,0
Total 1498 99,5 100,0
Perdidos No sabe 1 ,1
No contesta 6 ,4
Total 7 ,5
Total 1505 100,0
En dónde, según se puede apreciar en la columna de porcentaje válido de la tabla, un 26.3%

de los chilenos se considera en general en su vida “Muy feliz” versus el 3.8% que se
considera “Para Nada Feliz”. Del mismo modo, observamos que una parte significativa de los
chilenos se considera “No muy feliz”, 22.3%.
A partir de estos datos surgen una serie de posibles preguntas al respecto, por ejemplo,
¿Depende el nivel de felicidad de las personas del sexo, la edad, la escolaridad o el NSE?
Responder preguntas como esta requiere, sin embargo, de un tipo de análisis distinto. En
estadística lo denominamos Análisis Bivariado, ya que incluye una variable dependiente y al
menos una variable independiente.
7
3. RELACIONES ENTRE VARIABLES NOMINALES Y ORDINALES
3.1. El estudio de la relación entre variables
En las ciencias sociales a menudo se desea determinar la existencia o no de relación entre dos
variables, para lo cual se realizan diferentes pruebas de significación estadística. La forma en
que se relacionan dos variables se denomina asociación entre dos variables. El interés de este
tipo de análisis se centra principalmente en la forma en que se distribuye la variable
dependiente en función de las diferentes categorías o valores de la variable independiente. Es
decir, la variable que atrae primordialmente la atención del investigador, y cuya variación
trata de explicar, se llama variable dependiente, porque se supone que los valores que toma
dicha variable dependen de los valores que presentan otras variables. Estas variables que se
suponen influyen en los valores que toma la variable dependiente son las variables
independientes (explicativas o causales), ya que permiten conocer por qué varía la variable
dependiente de la forma que lo hace en una determinada población (usualmente una muestra).
Sin embargo, los resultados que aparecen al establecer relaciones significativas entre dos variables
son de naturaleza descriptiva y tales resultados no explican por qué ocurre dicha relación. Esto es,
una correlación entre dos variables no implica necesariamente una relación causal entre ellas
puesto que en cualquier correlación podría existir una tercera variable que explique la asociación
entre las dos variables que han sido medidas (relación espuria). A su vez, se debe verificar que la
variable independiente (causa) anteceda temporalmente a la variable dependiente (efecto). Del
mismo modo, se hace necesaria la existencia de una teoría que nos permita discriminar entre las
simples relaciones estadísticas y las relaciones causales propiamente tales.
El estudio de la relación entre dos variables se puede caracterizar mediante: i) la existencia o no

de asociación; ii) la fuerza de dicha asociación y iii) la dirección de ésta.2 Ciertamente solamente
tiene sentido ii) y iii) si se verifica en i) la existencia de relación entre las variables. Para ello se
utilizan un conjunto de pruebas de significación estadística, las cuales dependerán del nivel de
medición de las variables.
A la base de dicho análisis se encuentra la “teoría” y las “hipótesis” que se puedan desprender
de ésta. En otras palabras, en el estudio de relaciones entre variables intentamos testear
empíricamente hipótesis que nos resultan plausibles a la luz de un cierto marco teórico-
analítico. Una hipótesis no es otra cosa que una respuesta tentativa a la pregunta de
investigación (problema). Es una predicción respecto del posible resultado que se espera
encontrar. Y, en el estudio de relaciones entre variables, ésta guarda relación con el hecho de
determinar si las variaciones en los valores de la variable independiente se encuentran o no
asociados a las variaciones en los valores de la variable dependiente. Puesto que una hipótesis
requiere de verificación empírica, se hace necesario realizar una prueba de significación
estadística para determinar si la hipótesis planteada se verifica o no.
3.2. Las pruebas de significación estadísticas
Para la determinación de la existencia o no de asociación entre la variable dependiente y las

variables independientes se utilizará el coeficiente estadístico Chi Cuadrado de Pearson. La
intensidad de la asociación se determinará mediante el coeficiente V de Cramer. Para la
determinación de a dirección de la asociación, en tanto, se efectuará el coeficiente de correlación
de Spearman.
2
Una cuarta característica hace referencia a la naturaleza de la relación. Es decir, a la forma de distribución de X
respecto de Y, ya sea de forma lineal, curvilínea o de otra naturaleza.
8
La prueba de significación estadística basada en el coeficiente Chi Cuadrado de Pearson tiene
como fin examinar asociación entre variables categóricas (nominales u ordinales).3 Existe
asociación entre variables cuando los valores de una de ellas dependen de los valores de otra.
Cuando dos variables están relacionadas es posible predecir los valores de la variable dependiente
en función de los valores de las variables independientes. No existe relación cuando éstas son
independientes. Dos variables independientes no tienen nada en común. El estadístico Ji-
cuadrado, sin embargo, no permite estudiar la intensidad de la relación entre las variables.
La prueba basada en el Coeficiente V de Cramer tiene como finalidad comparar grados de

asociación entre variables medidas a nivel nominal. El Coeficiente V de Cramer asume valores
entre 0 y 1, en donde, valores próximos a 0 indican una muy baja asociación entre las variables y
valores próximos a 1 indicas una fuerte asociación.
Finalmente, la prueba de significación estadística basada en el Coeficiente de Correlación de

Spearman tiene por objeto determinar la dirección y la intensidad de la asociación entre dos
variables medidas a nivel ordinal. Dicho coeficiente toma valores entre -1 y +1. Los valores
cercanos a -1 ó +1 indican fuerte asociación entre las variables mientras que los valores cercanos
a 0 indican una muy baja asociación. Si el valor es positivo, la variables varían en la misma
dirección, en tanto, si es negativo lo hacen en direcciones opuestas (a medida que aumenta una
disminuye la otra). Se debe tener presente que Spearman está pensado para detectar relaciones de
tipo lineal, pero no todas las relaciones son lineales (por ejemplo, las curvilíneas).
No obstante, bien vale la pena recordar al respecto dos cosas. En primer lugar, en la investigación
en ciencias sociales rara vez nos encontramos con variables altamente asociadas. Y, en segundo
lugar, la interpretación de la magnitud de dicha asociación va a depender del tipo de estudio y si
se enmarca en las ciencias sociales o en las llamadas ciencias duras. En particular, qué niveles de
asociación serán considerados como bajos, medios o altos serán determinados por el investigador
en función de la práctica disciplinaria aplicada al estudio de la temática que se investiga. No
obstante lo anterior existen ciertas convenciones más o menos generalizadas. En virtud de tales
consideraciones se entenderá en el marco del presente curso, una vez verificada una relación
estadísticamente significativa entre las variables, como: i) una asociación baja, a los valores
inferiores a 0.2; ii) como media, a los valores iguales o mayores que 0.2 y menores que 0.3; y iii)
como alta, a los valores superiores o iguales a 0.3.
Para las pruebas estadísticas en cuestión, si el p-valor asociado al estadístico de contraste es

menor que el nivel de significación 0.05, se rechazará la hipótesis nula H0 a un nivel de
confianza del 95%, y se aceptará la hipótesis alternativa H1 (asociación entre la variable
dependiente y la independiente). El nivel de significación constituye el valor crítico a partir del
cual estamos dispuestos a aceptar o rechazar una hipótesis dentro de ciertos márgenes razonables
de error, siendo el máximo estándar en ciencias sociales de un 5% (95% de confianza). Entre
menor sea el nivel de significación, mayor es el nivel de confianza y, por consiguiente, menor será
la probabilidad de cometer un error en la prueba de hipótesis. Los errores que se pueden cometer
son de dos: (i) el error tipo I ó α (alfa), el cual se produce cuando se acepta la hipótesis
alternativa siendo ésta falsa; y (ii) el error tipo II ó β (beta), el cual se genera cuando se rechaza
la hipótesis alternativa siendo ésta verdadera.
3
Utilizamos la prueba Chi-cuadrado en variable ordinales porque el Coeficiente de Correlación de Spearman
(ver más adelante) únicamente da cuenta de relaciones de tipo lineal.
9
3.4. Ejecución de tablas de contingencia con medidas de asociación en SPSS
En el caso de trabajar con SPSS en la versión en inglés se deben dar los siguientes pasos:
1. Analizar en la barra del menú de SPSS.

3. Tablas de contingencia / Ingresar la variable dependiente(s) en filas y
independiente(s) en “columnas”
4. Casillas
/ Frecuencias > Sacar selección en observadas.
/ Porcentajes > Seleccionar columna.
5. Continuar
6. Estadísticos > Chi-cuadrado, V de Cramer, Correlaciones (Spearman), según
corresponda al nivel de medición de las variables.
7. Continuar
8. Aceptar
3.5. Ejemplo de un caso aplicado en SPSS
Retomemos nuestra inquietud anterior en términos de, por ejemplo, responder la siguiente
pregunta: ¿El nivel de felicidad depende del NSE de las personas? Es decir, ¿A medida que se
aumenta en el NSE, aumenta también el nivel de felicidad? La hipótesis alternativa general
sería: el nivel de felicidad de las personas se encuentra determinado por su NSE. En tanto, la
hipótesis específica alternativa sería: el nivel de felicidad de las personas aumenta a medida
que aumenta su NSE.
Se debe tener presente que ambas variables son ordinales y, por ende, podemos aplicar el
Coeficiente de Correlación de Spearman. No hay olvidar dejar fuera los valores perdidos (No
sabe (8) / No responde (9)).
10
11
Finalmente se obtendrá la siguiente tabla de contingencia con su respectiva prueba de
significación estadística. Analice e interprete los resultados. ¿Qué puede concluir al respecto?
Tabla de contingencia Consi dere su vida en general, ¿qué tan feliz o infel iz Ud. diría que
es su vi da en general? * Nivel Socioeconómico
% de Niv el Socioeconómico
Niv el Socioeconómico
BAJO MEDIO ALTO Total
Considere su v ida en Para nada f eliz 6,0% 2,0% 3,9%
general, ¿qué tan No muy f eliz 29,5% 16,6% 22,3%
f eliz o inf eliz Ud. diría
que es su v ida en Bastante f eliz 41,3% 53,5% 48,8% 47,6%
general? Muy f eliz 23,2% 27,9% 51,2% 26,3%
Total 100,0% 100,0% 100,0% 100,0%
12
Medidas simétri cas
Sig.
a b
Valor Error típ. asint. T aproximada aproximada
Interv alo por interv alo R de Pearson ,193 ,024 7,601 ,000c
Ordinal por ordinal Correlación de Spearman ,180 ,025 7,083 ,000c
N de casos v álidos 1499
a. Asumiendo la hipótesis alternat iv a.
b. Empleando el error típico asintót ico basado en la hipótesis nula.
c. Basada en la aproximación normal.
4. INTRODUCCIÓN DE VARIABLES DE CONTROL
4.1. Aspectos conceptuales
Dado la complejidad de la realidad, esto es, su multidimensionalidad (que se expresa tanto en las
múltiples dimisiones que suele involucrar un concepto como en la multiciplicidad de variables
que inciden en la manifestación de un fenómeno determinado), muchos de los fenómenos sociales
no son susceptibles de ser apropiadamente caracterizados a partir del estudio de la relación entre
dos variables (dependiente e independiente). La simple determinación de la existencia o no de
relación entre dos variables no es suficiente para determinar si dicha relación es verdadera o
espuria (falsa). En ese momento no podemos estar seguros acerca de los resultados encontrados ya
que eventualmente éstos podrían deberse a una tercera variable, que hasta ese momento no ha sido
considerada en el análisis. Y si ese fuera el caso, la relación original sería explicada no por la
variable independiente, sino por esta tercera variable. Dicha variable es nombrada en tal caso
como “interviniente” y pondría en evidencia la falsedad de la relación original. Eventualmente
también, la relación original podría verse modificada únicamente en algunas de las categorías de
la tercera variable. En tal caso hablamos de una relación “condicionada”.
En términos generales, al momento de elaborar una relación entre dos variables (particularmente
del tipo causa-efecto) se suele introducir una tercera variable, la cual se denomina variable
control. Lo que se intenta es determinar si ésta posee un determinado efecto sobre la relación entre
la variable dependiente y la independiente que pudiera modificar parcial (condicionada) o
totalmente la relación original (interviniente). Por ende, cuando se descubre una relación entre dos
variables, lo que está en juego es lograr determinar si se trata de una relación verdadera o espuria.
Puesto que las variables en ciencias sociales se encuentran con frecuencia asociadas unas con
otras, resulta necesario asegurarse de que exista una asociación verdadera entre las dos variables
originales. Cuando esto no ocurre hablamos de una relación espuria, o sea, que la relación
aparente entre dos variables se debe a la asociación de ambas variables con una tercera variable
ajena a la relación original.
Por consiguiente, la adecuada determinación de la relación bivariable original se logra mediante la

inclusión de variables control que eventualmente pudieran invalidar dicha relación, lo cual es
clave para no arribar a conclusiones erróneas sobre las relaciones entre variables sin haber
dilucidado antes si se trataba o no de relaciones espurias. En definitiva, de lo que se trata es de
comprobar si la relación inicial que aparece entre dos variables es real o aparente, mediante la
introducción de una variable de control. A su vez, interesa comprobar si la ausencia de relación
entre dos variables es también real o se debe, por el contrario, a la existencia de una tercera
variable que suprime la relación entre las dos variables originales.
13
Más concretamente, hay al menos tres situaciones típicas en la investigación social en donde las
variables de control son necesarias:
 La primera de ellas se presenta cuando una técnica estadística (por ejemplo, Chi Cuadrado de
Pearson) muestra que dos variables están relacionadas, y se duda si entre ambas existe una
relación, no sólo estadística, sino de dependencia (o causal). Es decir, se intenta dilucidar si tal
relación es real o espuria.
 La segunda, en tanto, se presenta cuando se intenta descubrir relaciones ocultas entre las
variables. Así por ejemplo, se puede intentar averiguar por qué resulta tan pequeña (o tan alta)
la intensidad de la relación entre dos variables cuando todo hace pensar que su relación
debería ser mucho mayor (o menor).
 Y, en tercer lugar, en muchas ocasiones se presenta la duda acerca de si la relación que se
establece entre dos variables originales funciona en todas las circunstancias o, por el contrario,
se manifiesta únicamente bajo determinadas condiciones (categorías de la variable control).
El razonamiento estadístico de la técnica del control por una tercera variable es muy sencillo. En
Primer lugar calculamos la relación entre la variable dependiente y la independiente y, a
continuación, se repite el procedimiento para cada una de las categorías de la(s) variable(s)
control.
Ahora bien, en términos estadísticos, el que la relación entre dos variables sea independiente de la
influencia de terceras variables significa que cualquiera que sea la tercera variable que se
introduzca como control, la relación entre las variables iniciales se mantendrá en cada una de las
categorías de la(s) variable(s) control. Para el caso contrario, cabe distinguir al menos dos
situaciones: i) cuando existe dependencia de terceras variables y la relación desaparece por
completo en todas las categorías (relación espuria) y ii) cuando existe dependencia de terceras
variables y la relación desaparece parcialmente en alguna de las categorías (relación de tipo
condicional o también denominada de interacción).
4.2. Ejecución de tablas de contingencia con medidas de asociación en SPSS,

introduciendo variables control
1. Analizar en la barra del menú de SPSS.

3. Tablas de contingencia / Ingresar la variable dependiente(s) en “filas” y la variable
independiente(s) en “columnas”. La(s) variable(s) control se ingresan en “capa”.
4. Casillas
/ Frecuencias > Sacar selección en observadas.
/ Porcentajes > Seleccionar columna.
5. Continuar
6. Estadísticos > Chi-cuadrado, V de Cramer, Correlaciones (Spearman), según
corresponda al nivel de medición de las variables.
7. Continuar
8. Aceptar
14
4.3. Análisis de los datos
Al momento de escribir el informe de análisis de datos usted debe tener en consideración:
4.3.1. Para el caso de la prueba de significación estadística Chi-cuadrado de Pearson
Situación 1: Asociación.
En este caso usted debiera señalar que: existe asociación estadísticamente significativa entre
la “variable dependiente” y la “variable independiente”. Ello ocurre cuando el estadístico de
contraste es menor a 0.05.
Situación 2: No asociación.
De modo análogo al caso anterior usted debiera indicar que: no existe asociación
estadísticamente significativa entre la “variable dependiente” y la “variable independiente”.
Ello ocurre cuando el estadístico de contraste es mayor a 0.05.
*** Se debe prestar especial atención al porcentaje de celdas con frecuencia esperada
inferior a 5. Que no supere el 25% de las celdas. Si ese fuera el caso se recomienda
recodificar, ya que de lo contrario se corre el riesgo de llegar a una conclusión errónea.
4.3.2. Para el caso del Coeficiente V de Cramer y Spearman
Sólo consideraremos el Coeficiente V de Cramer como parte del análisis cuando Chi-cuadrado de
Pearson sea estadísticamente significativo. Es decir, cuando exista asociación entre la variable
dependiente y la variable independiente. Usualmente, por lo demás, cuando Chi-cuadrado de
Pearson es significativo, lo es también V de Cramer.
Situación 1: Existe una intensidad de asociación baja (0.0 < V de Cramer  0.2) entre la “variable
dependiente” y la “variable independiente”.
Situación 2: Existe una intensidad de asociación media (0.2 < V de Cramer  0.3) entre la
“variable dependiente” y la “variable independiente”.
Situación 3: Existe una intensidad de asociación alta (0.3 < V de Cramer  1.0) entre la “variable
dependiente” y la “variable independiente”.
4.3.3. Para el caso del Coeficiente de Correlación de Spearman
La intensidad de la relación se interpreta tal como el coeficiente de V de Cramer. Luego debe

indicarse la dirección de la relación: si es directa o inversamente proporcional.
4.3.4. Para el caso de la introducción de variables control
Al realizar un cruce entre la variable dependiente (Y) y la variable independiente (Y) incluyendo
una variable de control (C), se debe realizar un análisis de los datos de modo similar a cuando
trabajamos con dos variables. Así, nos encontraremos con las siguientes situaciones:
Situación 1: Dependencia/Independencia
15
La “variable Y” depende de la “variable X”, independientemente de la “variable C”. Tal situación
ocurre cuando el estadístico de contraste es menor a 0.05 en cada una de las categorías de la
variable de control.
La “variable Y” no depende de la “variable X”, independientemente de la “variable C.” Dicha

situación ocurre cuando el estadístico de contraste es mayor a 0.05 en cada una de las
categorías de la variable de control.
Situación 2: Relación condicionada.
La “variable Y” depende de la “variable X”, salvo en el caso de las “categorías de variable C” (en
donde se da una asociación no significativa).
La “variable Y” no depende de la “variable X”, salvo en el caso de las “categorías de la variable

C” (en donde se da una asociación significativa).
Situación 3: Relación espuria
La “variable Y” no depende de la “variable X” sino de la “variable C” (no existe asociación

significativa en cada una de las categorías de la variable control).
5. EL PAPEL DE LA TEORÍA Y LOS MODELOS DE RELACIONES
En términos generales asumimos que no resulta razonable llevar a cabo una investigación de
carácter empírico sin un marco teórico o analítico apropiado a nuestras preguntas (problema)
de investigación.
La teoría juega al menos cinco funciones fundamentales. En primer lugar, nos permite
delimitar aquellos ámbitos de realidad a los que se le debe prestar atención. En segundo lugar,
nos permite discriminar cuáles han de ser las variables relevantes en el estudio: variable
dependiente, independientes y de control. En tercer lugar, nos permite establecer el sentido de
tales relaciones (modelos) y formular, por consiguiente, hipótesis de trabajo. Y, en quinto
lugar, nos permite interpretar los resultados encontrados. Sin una adecuada teoría no
podríamos, por ejemplo, distinguir entre una simple relación estadística de una causal.
La elaboración de representaciones acerca del sentido de las relaciones entre las variables de
un problema de investigación se puede llevar a cabo mediante fórmulas matemáticas
relativamente complejas o mediante representaciones conceptuales a través de diagramas de
flechas (que son más frecuentes en las ciencias sociales). Tales representaciones son
especialmente relevantes en el análisis estadístico multivariado. Nos permite establecer de
modo sencillo las múltiples relaciones que se desprenden del marco teórico/analítico, lo cual
es clave para la formulación de las hipótesis de investigación, de modo tal de orientar las
decisiones que se deben ir tomando al momento de seleccionar e interpretar las diferentes
pruebas estadísticas (asociadas con la prueba de hipótesis).
___________________________________________________________________________
Bibliografía
Field, Andy (2009). Discovering Statistics Using SPSS for Windows. Third Edition (Sage, London).
García Ferrando, Manuel (1997). Socioestadística (Alianza Editorial, Madrid).
Sánchez Carrión, Juan J. (1995). Manual de Análisis de Datos (Alianza Editorial, Madrid).
Ritzer, Ferris J. (2003). Estadística para las Ciencias Sociales (McGraw-Hill, México).
16

Analisis Bivariado PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Analisis Bivariado PDF

Cargado por

Copyright:

Formatos disponibles

ANÁLISIS ESTADÍSTICO UNIVARIADO, BIVARIADO Y

1.1. Según nivel de medición

Las variables nominales, también llamadas variables cualitativas o categóricas, hacen

1.2. Según el lugar que ocupan en la investigación

Variable dependiente: corresponde a la variable (fenómeno) que intentamos caracterizar o

Variable(s) independiente(s): corresponde(n) a la(s) variable(s) que explicaría(n) las

Variables de control: se introducen con la finalidad de determinar si la relación inicial entre

Al realizar un análisis univariado nos concentramos en cada variable de modo independiente.

2.2. Distribución de frecuencias

Además de la tabla de frecuencias también es posible hacer representaciones gráficas tales

2.3 Medidas de tendencia central: media, mediana y moda

La media o promedio corresponde a la suma de todas las puntuaciones de la variable dividida

*** En una curva de distribución normal coinciden la media, la mediana y la moda.

La varianza es el valor promedio del cuadrado de las puntuaciones respecto de la media. Se

La desviación estándar o típica es el promedio de desviación de los valores de las

2.5. Ejecución de tablas de frecuencias, medidas de tendencia central y de dispersión en

La serie de comanda a ejecutar serían los siguientes:

1. Analizar en la barra del menú de SPSS

Los pasos serían:

1. Analizar en la barra del menú de SPSS

En dónde, según se puede apreciar en la columna de porcentaje válido de la tabla, un 26.3%

3.1. El estudio de la relación entre variables

El estudio de la relación entre dos variables se puede caracterizar mediante: i) la existencia o no

3.2. Las pruebas de significación estadísticas

Para la determinación de la existencia o no de asociación entre la variable dependiente y las

La prueba basada en el Coeficiente V de Cramer tiene como finalidad comparar grados de

Finalmente, la prueba de significación estadística basada en el Coeficiente de Correlación de

Para las pruebas estadísticas en cuestión, si el p-valor asociado al estadístico de contraste es

1. Analizar en la barra del menú de SPSS.

3.5. Ejemplo de un caso aplicado en SPSS

4. INTRODUCCIÓN DE VARIABLES DE CONTROL

4.1. Aspectos conceptuales

Por consiguiente, la adecuada determinación de la relación bivariable original se logra mediante la

4.2. Ejecución de tablas de contingencia con medidas de asociación en SPSS,

1. Analizar en la barra del menú de SPSS.

Al momento de escribir el informe de análisis de datos usted debe tener en consideración:

4.3.1. Para el caso de la prueba de significación estadística Chi-cuadrado de Pearson

4.3.2. Para el caso del Coeficiente V de Cramer y Spearman

4.3.3. Para el caso del Coeficiente de Correlación de Spearman

La intensidad de la relación se interpreta tal como el coeficiente de V de Cramer. Luego debe

4.3.4. Para el caso de la introducción de variables control

La “variable Y” no depende de la “variable X”, independientemente de la “variable C.” Dicha

Situación 2: Relación condicionada.

La “variable Y” no depende de la “variable X”, salvo en el caso de las “categorías de la variable

Situación 3: Relación espuria

La “variable Y” no depende de la “variable X” sino de la “variable C” (no existe asociación

5. EL PAPEL DE LA TEORÍA Y LOS MODELOS DE RELACIONES

También podría gustarte