Documentos de Académico
Documentos de Profesional
Documentos de Cultura
VARIABLES CONTROL1
El presente documento de trabajo tiene por objeto enfatizar de un modo sencillo algunos de
los contenidos vistos en clases en relacin con el anlisis univariado, bivariado y variables
control. Cada uno de los aspectos aqu tratados puede ser profundizado con el apoyo de la
bibliografa sugerida para el curso, segn se ha indicado en el programa. Por tratarse de un
texto preliminar, mucho de lo que aqu se expone est sujeto a futuras correcciones y
actualizaciones, constituyendo el primero de una serie de apuntes que sern entregados en el
transcurso del semestre acadmico.
1.
TIPOS DE VARIABLES
Las variables pueden ser clasificadas segn diferentes tipos de criterios, entre ellos podemos
mencionar el nivel de medicin y el lugar que ocupan en la investigacin.
1.1.
El nivel de medicin de una variable determina tanto el tipo de operaciones matemticas que
puede realizarse (suma, resta, multiplicacin, divisin, etc.) como el tipo de tcnicas
estadsticas correspondiente para la prueba de hiptesis. De acuerdo a su nivel de medicin
las variables pueden ser clasificadas en nominales, ordinales, intervalares y de razn.
Las variables nominales, tambin llamadas variables cualitativas o categricas, hacen
referencia a ciertas cualidades o atributos en los valores de una variable. Es decir, dichos
valores (categoras) no pueden ser ordenados a partir de un criterio de jerarqua. Ejemplo:
sexo, religin, zona (urbano/rural), etc. En el caso de sexo, si asignamos valor 1 = hombre y
valor 2 = mujer, difcilmente resulta razonable sostener que mujer vale dos veces hombre. De
igual modo queda de manifiesto que los valores son asignados de un modo arbitrario.
Perfectamente pudimos haber otorgado el valor 1 a mujer (y no el valor 2).
En las variables ordinales, a diferencia de las nominales, los valores de la variable pueden ser
ordenados a partir de algn criterio de jerarquizacin. Se puede establecer por consiguiente un
orden ascendente o descendente entre los distintos valores (o categoras). Ejemplo: NSE
(bajo, medio, alto), percepcin de progreso del pas (progresando, estancado, en decadencia),
etc.
En las variables intervalares, al igual que las ordinales, los valores de la variable pueden ser
jerarquizados. Y, a su vez, a diferencia de las ordinales, los distintos valores de la variable son
equidistantes. Existen intervalos regulares entre las puntuaciones de la variable en su escala
de medicin. Ejemplo: temperatura. En ciencias sociales se asume que, de acuerdo a una
cierta convencin no ortodoxa, las variables medidas a travs de escalas Likert de cinco
categoras (muy de acuerdo, de acuerdo, ni de acuerdo/ni en desacuerdo, en desacuerdo, muy
en desacuerdo) se comportan como si fueran variables intervalares. No obstante, debe
chequearse si distribucin si se ajusta o no a una curva normal.
1
Profesor Jaime Fierro, Socilogo y Magster en Ciencias Sociales de la Universidad de Chile. Ph.D. en Ciencia
Poltica de la Universidad de Essex, Inglaterra. Actualizado al primer semestre de 2010.
1.2.
2.
ANLISIS UNIVARIADO
Distribucin de frecuencias
La distribucin de frecuencias nos indica el nmero de casos que hay en cada categora de la
variable. A partir de dichos valores, en una tabla de frecuencias, se calcula el porcentaje
(respecto del total de observaciones), porcentaje vlido (excluido los valores perdidos) y el
porcentaje acumulado (porcentaje de la primera categora, luego ste ms el de la segunda
categora y as sucesivamente). Se aplica para variables nominales, ordinales y en cierto tipo
de variables intervalares (por ejemplo, en escalas Likert).
Adems de la tabla de frecuencias tambin es posible hacer representaciones grficas tales
como: grfico de barras, grfico circular o un polgono de frecuencias.
2.3
Las medidas de tendencia central dan cuenta del tipo de distribucin que tienen los valores de
la variable respecto de un valor tpico, o puntuacin central, a partir del cual se agrupan. Se
calculan para variables medidas a nivel nominal, ordinal y en algunas intervalares (por
ejemplo, en escalas Likert).
La media o promedio corresponde a la suma de todas las puntuaciones de la variable dividida
por el nmero total de casos.
La mediana es el valor que divide por la mitad a las puntuaciones de la variable: los que estn
por debajo de ste y los que estn por encima. Es decir, es el valor que divide en dos mitades
a las observaciones.
La moda es el valor que ms que ms se repite del conjunto de observaciones, pudiendo haber
ms de una moda (bimodal o multimodal).
2.4.
Las medidas de dispersin indican el grado variabilidad de de los datos respecto de la media
(promedio). Se debe tener presente que una propiedad de la media es que la suma de las
diferencias de todos los valores de la variable respecto de la media es siempre 0. Es por ello
que para el clculo de la varianza y la desviacin estndar la se procede a elevar la sumatoria
de las diferencias al cuadrado.
La varianza es el valor promedio del cuadrado de las puntuaciones respecto de la media. Se
utiliza mucho en pruebas de inferencia estadstica (de la muestra al universo), pero su unidad
de medida no es directamente interpretable (ya que est al cuadrado), razn por la cual se
recurre a la desviacin estndar. Su frmula de clculo es la siguiente:
( x x)
( x x)
2.5.
Ejecucin de tablas de frecuencias, medidas de tendencia central y de dispersin en
SPSS
5.
6.
2.6.
Si alguien quisiera saber la proporcin de chilenos que se considera feliz podemos intentar
responder dicha pregunta a partir de la Encuesta CEP Diciembre de 2008 (www.cepchile.cl),
ya que contiene una pregunta al respecto. Puesto que la variable ha sido medida en una escala
Likert de cuatro categoras, bastara extraer simplemente una distribucin de frecuencias.
Antes de eso, sin embargo, los valores No sabe (codificados usualmente con valores 8) y
No contesta (codificados usualmente con valores 9) habra que incluirlos como Valores
perdidos y, de este modo, obtendremos el porcentaje vlido de casos para la variable
felicidad.
Los pasos seran:
1. Seleccionar la columna de valores en la variable felicidad e identificar los valores
asociados a No sabe (8) y No contesta (9)
2. Aceptar
3. Seleccionar la columna de valores perdidos en la variable felicidad e ingresar los
valores 8 y 9 como valores perdidos
4. Aceptar
Considere su vida en general, qu tan feliz o infeliz Ud. dira que es su vida en
general?
Vlidos
Total
Porcentaje
acumulado
Porcentaje
57
3,8
3,8
3,8
No muy f eliz
333
22,2
22,3
26,1
Bastante f eliz
713
47,4
47,6
73,7
Muy f eliz
394
26,2
26,3
100,0
1498
99,5
100,0
No sabe
,1
No contesta
,4
Total
,5
1505
100,0
Total
Perdidos
Porcentaje
v lido
Frecuencia
3.
3.1.
En las ciencias sociales a menudo se desea determinar la existencia o no de relacin entre dos
variables, para lo cual se realizan diferentes pruebas de significacin estadstica. La forma en
que se relacionan dos variables se denomina asociacin entre dos variables. El inters de este
tipo de anlisis se centra principalmente en la forma en que se distribuye la variable
dependiente en funcin de las diferentes categoras o valores de la variable independiente. Es
decir, la variable que atrae primordialmente la atencin del investigador, y cuya variacin
trata de explicar, se llama variable dependiente, porque se supone que los valores que toma
dicha variable dependen de los valores que presentan otras variables. Estas variables que se
suponen influyen en los valores que toma la variable dependiente son las variables
independientes (explicativas o causales), ya que permiten conocer por qu vara la variable
dependiente de la forma que lo hace en una determinada poblacin (usualmente una muestra).
Sin embargo, los resultados que aparecen al establecer relaciones significativas entre dos variables
son de naturaleza descriptiva y tales resultados no explican por qu ocurre dicha relacin. Esto es,
una correlacin entre dos variables no implica necesariamente una relacin causal entre ellas
puesto que en cualquier correlacin podra existir una tercera variable que explique la asociacin
entre las dos variables que han sido medidas (relacin espuria). A su vez, se debe verificar que la
variable independiente (causa) anteceda temporalmente a la variable dependiente (efecto). Del
mismo modo, se hace necesaria la existencia de una teora que nos permita discriminar entre las
simples relaciones estadsticas y las relaciones causales propiamente tales.
El estudio de la relacin entre dos variables se puede caracterizar mediante: i) la existencia o no
de asociacin; ii) la fuerza de dicha asociacin y iii) la direccin de sta.2 Ciertamente solamente
tiene sentido ii) y iii) si se verifica en i) la existencia de relacin entre las variables. Para ello se
utilizan un conjunto de pruebas de significacin estadstica, las cuales dependern del nivel de
medicin de las variables.
A la base de dicho anlisis se encuentra la teora y las hiptesis que se puedan desprender
de sta. En otras palabras, en el estudio de relaciones entre variables intentamos testear
empricamente hiptesis que nos resultan plausibles a la luz de un cierto marco tericoanaltico. Una hiptesis no es otra cosa que una respuesta tentativa a la pregunta de
investigacin (problema). Es una prediccin respecto del posible resultado que se espera
encontrar. Y, en el estudio de relaciones entre variables, sta guarda relacin con el hecho de
determinar si las variaciones en los valores de la variable independiente se encuentran o no
asociados a las variaciones en los valores de la variable dependiente. Puesto que una hiptesis
requiere de verificacin emprica, se hace necesario realizar una prueba de significacin
estadstica para determinar si la hiptesis planteada se verifica o no.
3.2.
Una cuarta caracterstica hace referencia a la naturaleza de la relacin. Es decir, a la forma de distribucin de X
respecto de Y, ya sea de forma lineal, curvilnea o de otra naturaleza.
3.4.
En el caso de trabajar con SPSS en la versin en ingls se deben dar los siguientes pasos:
1.
2.
3.
7.
8.
3.5.
4.
5.
6.
Retomemos nuestra inquietud anterior en trminos de, por ejemplo, responder la siguiente
pregunta: El nivel de felicidad depende del NSE de las personas? Es decir, A medida que se
aumenta en el NSE, aumenta tambin el nivel de felicidad? La hiptesis alternativa general
sera: el nivel de felicidad de las personas se encuentra determinado por su NSE. En tanto, la
hiptesis especfica alternativa sera: el nivel de felicidad de las personas aumenta a medida
que aumenta su NSE.
Se debe tener presente que ambas variables son ordinales y, por ende, podemos aplicar el
Coeficiente de Correlacin de Spearman. No hay olvidar dejar fuera los valores perdidos (No
sabe (8) / No responde (9)).
10
11
Tabla de contingencia Consi dere su vida en general, qu tan feliz o infel iz Ud. dira que
es su vi da en general? * Nivel Socioeconmico
% de Niv el Socioeconmico
Niv el Socioeconmico
BAJO
Considere su v ida en
general, qu tan
f eliz o inf eliz Ud. dira
que es su v ida en
general?
Total
MEDIO
ALTO
Total
6,0%
2,0%
3,9%
No muy f eliz
29,5%
16,6%
22,3%
Bastante f eliz
41,3%
53,5%
48,8%
47,6%
Muy f eliz
23,2%
27,9%
51,2%
26,3%
100,0%
100,0%
100,0%
100,0%
12
Valor
Sig.
aproximada
,193
,024
7,601
,000c
,180
,025
7,083
,000c
Correlacin de Spearman
N de casos v lidos
1499
4.
13
Ms concretamente, hay al menos tres situaciones tpicas en la investigacin social en donde las
variables de control son necesarias:
La primera de ellas se presenta cuando una tcnica estadstica (por ejemplo, Chi Cuadrado de
Pearson) muestra que dos variables estn relacionadas, y se duda si entre ambas existe una
relacin, no slo estadstica, sino de dependencia (o causal). Es decir, se intenta dilucidar si tal
relacin es real o espuria.
La segunda, en tanto, se presenta cuando se intenta descubrir relaciones ocultas entre las
variables. As por ejemplo, se puede intentar averiguar por qu resulta tan pequea (o tan alta)
la intensidad de la relacin entre dos variables cuando todo hace pensar que su relacin
debera ser mucho mayor (o menor).
Y, en tercer lugar, en muchas ocasiones se presenta la duda acerca de si la relacin que se
establece entre dos variables originales funciona en todas las circunstancias o, por el contrario,
se manifiesta nicamente bajo determinadas condiciones (categoras de la variable control).
El razonamiento estadstico de la tcnica del control por una tercera variable es muy sencillo. En
Primer lugar calculamos la relacin entre la variable dependiente y la independiente y, a
continuacin, se repite el procedimiento para cada una de las categoras de la(s) variable(s)
control.
Ahora bien, en trminos estadsticos, el que la relacin entre dos variables sea independiente de la
influencia de terceras variables significa que cualquiera que sea la tercera variable que se
introduzca como control, la relacin entre las variables iniciales se mantendr en cada una de las
categoras de la(s) variable(s) control. Para el caso contrario, cabe distinguir al menos dos
situaciones: i) cuando existe dependencia de terceras variables y la relacin desaparece por
completo en todas las categoras (relacin espuria) y ii) cuando existe dependencia de terceras
variables y la relacin desaparece parcialmente en alguna de las categoras (relacin de tipo
condicional o tambin denominada de interaccin).
4.2.
Ejecucin de tablas de contingencia con medidas de asociacin en SPSS,
introduciendo variables control
1.
2.
3.
4.
5.
6.
7.
8.
14
4.3.
15
5.
En trminos generales asumimos que no resulta razonable llevar a cabo una investigacin de
carcter emprico sin un marco terico o analtico apropiado a nuestras preguntas (problema)
de investigacin.
La teora juega al menos cinco funciones fundamentales. En primer lugar, nos permite
delimitar aquellos mbitos de realidad a los que se le debe prestar atencin. En segundo lugar,
nos permite discriminar cules han de ser las variables relevantes en el estudio: variable
dependiente, independientes y de control. En tercer lugar, nos permite establecer el sentido de
tales relaciones (modelos) y formular, por consiguiente, hiptesis de trabajo. Y, en quinto
lugar, nos permite interpretar los resultados encontrados. Sin una adecuada teora no
podramos, por ejemplo, distinguir entre una simple relacin estadstica de una causal.
La elaboracin de representaciones acerca del sentido de las relaciones entre las variables de
un problema de investigacin se puede llevar a cabo mediante frmulas matemticas
relativamente complejas o mediante representaciones conceptuales a travs de diagramas de
flechas (que son ms frecuentes en las ciencias sociales). Tales representaciones son
especialmente relevantes en el anlisis estadstico multivariado. Nos permite establecer de
modo sencillo las mltiples relaciones que se desprenden del marco terico/analtico, lo cual
es clave para la formulacin de las hiptesis de investigacin, de modo tal de orientar las
decisiones que se deben ir tomando al momento de seleccionar e interpretar las diferentes
pruebas estadsticas (asociadas con la prueba de hiptesis).
___________________________________________________________________________
Bibliografa
Field, Andy (2009). Discovering Statistics Using SPSS for Windows. Third Edition (Sage, London).
Garca Ferrando, Manuel (1997). Socioestadstica (Alianza Editorial, Madrid).
Snchez Carrin, Juan J. (1995). Manual de Anlisis de Datos (Alianza Editorial, Madrid).
Ritzer, Ferris J. (2003). Estadstica para las Ciencias Sociales (McGraw-Hill, Mxico).
16