Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Análisis de Correlación
En ocasiones nos puede interesar estudiar si existe o no algún tipo de relación entre dos variables aleatorias. El
coeficiente de correlación mide la fuerza o el grado de asociación entre dos variables. No predice una variable a
partir de otras sino que estudia el grado de asociación que hay entre las variables. En cambio, en el análisis de
regresión se efectúan predicciones de una variable o más (variable predictora) sobre una variable criterio.
El coeficiente de correlación lineal de Pearson (r) permite medir el grado de asociación entre dos variables y
el sentido de su relación (positivo o negativo). Las variables tienen que ser cuantitativas y medidas en escala de
intervalo. Sus valores oscilan desde -1 hasta 1. La hipótesis nula señala que r = 0 en la población ( = 0)y la
hipótesis alternativa que r ≠ 0 ( ≠ 0). El coeficiente de correlación es un índice de tamaño del efecto pues
indica la magnitud de la relación encontrada entre dos variables.
Se puede dibujar un gráfico de dispersión o nube de puntos que nos orienta sobre la dirección de la relación
(positiva o negativa) y sobre la magnitud. En concreto, respecto a la magnitud de la relación, cuanto más ancha
sea la nube de puntos menor relación entre las variables. En cambio, cuanto más estrecha sea la nube de puntos
mayor será la relación (correlación) entre las variables y más acertados los pronósticos de Y en función de X
pues el error de estimación será menor. Una correlación lineal nula se representa por un conjunto de puntos
donde resulta casi imposible dibujar una recta. En este caso, no puede establecerse ningún tipo de relación entre
X e Y.
2
Correlación lineal directa: el valor de r se aproxima a +1, es decir, valores mayores de X se vinculan
con valores mayores de Y. Cuando aumentan los valores de una variable también aumentan los valores
de la otra variable
Correlación lineal inversa: el valor de r se aproxima a -1, es decir, valores mayores de una variable se
asocian con valores menores en la otra variable. Cuando aumentan los valores de una variable
disminuyen los valores de la otra variable
Conviene tener en cuenta dos cuestiones. Primero, a través de los resultados de un coeficiente de correlación no
se puede hablar de relaciones de causalidad. Dos, un coeficiente de correlación de Pearson igual a cero
indica que no hay ningún tipo de relación lineal entre las variables pero quizás podría haber relación no lineal.
El coeficiente de correlación de Pearson se utiliza cuando se postula una relación lineal entre las variables.
Por ejemplo, entre rendimiento y atención la relación es de tipo U invertida (no lineal) y ahí no sería adecuado
efectuar un coeficiente de correlación de Pearson.
Se puede realizar un contraste de hipótesis para comprobar si la correlación entre las variables va más
allá del azar (con t de Student y n-2 grados de libertad). Y la interpretación del contraste de hipótesis
mediante el coeficiente de correlación es la misma que se hace ante con la prueba de hipótesis tipo t de
Student o F del análisis de la varianza. Se trata de comparar el valor de alfa planteado a priori con el
valor p de probabilidad vinculado al valor del coeficiente de correlación obtenido.
:
3
Un valor del coeficiente de correlación estadísticamente significativo señala que existe una relación entre las
variables que se puede explicar por algo más que el azar pero el tamaño de su efecto debe de plantearse dentro
de un contexto de investigación tal y como ya se señaló al hablar del tamaño del efecto anteriormente. Además,
conviene tener en cuenta que el coeficiente de correlación está relacionado con el tamaño de la muestra y
cuanto mayor la muestra mayor es el coeficiente de correlación. Por ello resulta más útil interpretar el valor del
coeficiente de correlación como proporción de varianza explicada (el cuadrado del coeficiente de correlación) o
proporción de varianza compartida entre las dos variables.
El modelo de regresión predice el valor de una variable dependiente (variable respuesta Y, predicha o
explicada, variable criterio) basándose en el valor de al menos una variable independiente (variable
explicativa X o variable predictora).
-Cuando la respuesta (variable dependiente) es de tipo dicotómico se utiliza el modelo de regresión logística.
-En el modelo de regresión las variables explicativas (variables independientes) pueden ser numéricas y no
numéricas (nominales tipo dicotómico como variables dummy 1 0).
Si el modelo sólo tiene una variable independiente es un modelo de regresión simple y si consta de más de una
variable independiente es un modelo de regresión múltiple. El modelo de regresión múltiple forma parte de
las técnicas multivariadas.
Con la regresión lineal es posible modelar la relación entre las variables predictoras y predicha, de manera que
se puede determinar una expresión matemática que permita predecir la variable dependiente a partir de la o las
variables independientes. La regresión lineal estima los coeficientes de la ecuación lineal que predice mejor
el valor de la variable dependiente.
Los modelos de regresión pertenecen al Modelo Lineal General como el ANOVA y conducen a los mismos
resultados.
Con el objetivo de que las inferencias realizadas con la muestra sobre la población sean correctas es necesario
que los datos cumplan una serie de requisitos. Requisitos para poder aplicar el modelo de regresión:
1. Linealidad. Es necesario que en la población exista una relación lineal entre la variable respuesta y las
variables explicativas.
4
2. Normalidad y equidistribución de los residuos. Si el valor del estadístico Durbin Watson está
próximo a 2 entonces los residuos no están autocorrelacionados. Si su valor es 0 hay
autocorrelación perfecta positiva. Si vale 4 existe autocorrelación perfecta negativa.
3. Colinealidad. Si dos variables independientes están muy relacionadas entre sí y se incluyen en el modelo
es muy probable que ninguna de las dos resulte estadísticamente significativa. En cambio, si se incluye
una sola de ellas sí podría resultar estadísticamente significativa. El investigador debe examinar los
coeficientes para ver si se vuelven inestables al introducir una nueva variable. Si eso sucede entonces
existe colinealidad entre la nueva variable y las anteriores.
4. Número de variables independientes. Como regla general al menos tienen que existir 20 observaciones
por cada variable independiente que se considere a priori como teóricamente relevante. Si utilizamos
menos observaciones por variable es muy probable que aumente el error de Tipo II, es decir, disminuya
la potencia estadística del diseño de investigación.
Una vez ajustada la recta de regresión a la nube de observaciones es importante disponer de una medida que
mida la bondad del ajuste realizado y que permita decidir si el ajuste lineal es suficiente o se deben buscar
modelos alternativos. Como medida de bondad del ajuste se utiliza el coeficiente de determinación
Por lo tanto, la bondad de ajuste del modelo se interpreta con el valor de R 2 (conocido como coeficiente de
determinación).
El coeficiente de determinación (R2) indica la proporción del ajuste que se ha conseguido con el modelo lineal.
Es decir, multiplicado por 100 señala el porcentaje de la variación de Y que se explica a través del modelo
lineal que se ha estimado a través de las variables X (independientes). A mayor porcentaje mejor es nuestro
modelo para predecir el comportamiento de la variable Y. Recordar que esto mismo es eta cuadrado en el
modelo de ANOVA.
El coeficiente de determinación (R2) también se puede interpretar como la proporción de varianza explicada por
la recta de regresión y su valor siempre estará entre 0 y 1. Cuanto más se acerque a uno mayor es la proporción
de varianza explicada. Una cuestión, a medida que se introducen más variables independientes mayor será el
valor de R2. Para evitar este posible sesgo, es mejor interpretar „R2 corregida‟ ya que su valor disminuye
cuando se introducen variables independientes innecesarias.
La matriz de correlaciones entre las variables nos ayuda para identificar correlaciones lineales entre las
variables. La variable dependiente y las independientes pueden estar correlacionadas pero detectar
correlaciones entre pares de variables independientes es un problema que afecta a la colinealidad y alguna de
ellas deberá ser eliminada del modelo.
R2 indica la proporción de las variaciones explicadas por el modelo de regresión. Se trata de la varianza
explicada por las variables explicativas o predictorasdel modelo lineal.
1-R2 indica la proporción de las variaciones no explicadas por el modelo de regresión. Se trata de la
varianza no explicada por las variables explicativas o predictoras, es decir, se atribuye al error.
5
Si la correlación fuese perfecta (1; -1) entonces el coeficiente de determinación sería 1. Es decir, todos los
puntos estarían situados a lo largo de la recta de regresión y no habría error de estimación (diferencia entre
puntuación obtenida y puntuación pronosticada por el modelo).
Una vez calculada la recta de regresión y el ajuste que se ha conseguido, el siguiente paso es analizar si la
regresión es válida y se puede utilizar para predecir. Para ello hay que contrastar si la correlación entre las
variables predictoras y predicha es diferente de cero. Es decir, se trata de comprobar si la estimación del modelo
de regresión es estadísticamente significativa de manera que las variables explicativas X son relevantes para
explicar la variable predicha Y. La prueba estadística consiste en contrastar si la pendiente de la recta de
regresión poblacional es diferente de cero de forma estadísticamente significativa (hipótesis nula plantea que la
pendiente es cero). Si es así entonces se puede esperar que exista una correlación lineal entre las variables.
Pasos a seguir:
1. Identificar X, Y
2. Construir el diagrama de dispersión
3. Estimar los parámetros del modelo (coeficientes)
4. Probar la significación estadística
5. Determinar la fuerza de la asociación entre las variables (R2)
6. Análisis de los residuos
Cuando el coeficiente de correlación entre dos variables es alto se puede considerar que el ajuste de la recta de
regresión también será alto. En aquellos casos en que el coeficiente de correlación lineal está “cercano” a +1 o a
–1, tiene sentido considerar la ecuación de la recta que “mejor se ajuste” a la nube de puntos (recta de mínimos
cuadrados). Uno de los principales usos de dicha recta será el de predecir o estimar los valores de Y que
6
obtendríamos para distintos valores de X. Estos conceptos quedarán representados en lo que se llama diagrama
de dispersión:
Modelo de regresión
Y es la variable dependiente
X representa a la/las variables independientes
Los coeficientes del modelo b son calculados por el programa estadístico minimizando los residuos o
errores. b0 es la constante del modelo, b1 es la estimación de la pendiente en X1. La constante del
modelo (b0) es el valor promedio de Y cuando el valor de X es cero. b1 mide el cambio en el valor
promedio de Y como resultado de un cambio unitario en X.
E es el residual del modelo
Cuando para los coeficientes b se estiman valores no estadísticamente significativos (cercanos al cero) entonces
la variable asociada se elimina del modelo. En caso contrario sí se considera la variable asociada de interés y se
introduce en el modelo de regresión.
La hipótesis nula señala que la variable respuesta o dependiente Y no está relacionada con las variables
independientes o predictoras X. La significación estadística de los contrastes se realiza ejecutando un análisis
de la varianza.
El programa estadístico analiza la significación estadística de los coeficientes vinculados a las variables
independientes. Si alguno de ellos no resulta estadísticamente significativo se puede eliminar del modelo para
simplificar. Pero, muy importante, si al eliminar una variable cambian los coeficientes del resto de
variables independientes, incluso podrían cambiar de signo, entonces muy posiblemente se trata de una
variable de confundido (tercera variable que actúa como variable mediadora) que habrá que controlar
en el diseño de investigación. En ese caso se debe dejar en el modelo aunque su coeficiente no sea
estadísticamente significativo.
El modelo de regresión múltiple permite estudiar la relación entre varias variables independientes (predictoras o
explicativas) y otra variable dependiente (criterio, predicha o respuesta).
Por ejemplo se puede estudiar el coeficiente intelectual como variable predicha utilizando el tamaño del cerebro
y el sexo como variables predictoras independientes.
Conviene siempre tener muy presente que los modelos de regresión (en general el modelo lineal general) no
permiten hablar de causa-efecto. Eso es una cuestión que solamente el diseño de investigación y la metodología
empleada pueden resolver. Nada que ver con la técnica estadística por sí sola.
La relación entre las variables (colinealidad) también es otra cuestión que hay que tener en cuenta a la hora de
interpretar un modelo de regresión.
Método—Introducir. Procedimiento para la selección de variables en el que todas las variables de un bloque
se introducen en un solo paso. Es el método por defecto. Es nuestra opción.
En Variable de selección se traslada una variable que limite el análisis a un subconjunto de casos que tengan un
valor particular para esta variable. Con Regla… se puede definir el subconjunto de casos que se emplearán para
estimar el modelo de regresión. Por ejemplo si se define con regla que es 4 entonces solamente se incluirán en
el análisis los casos para los que la variable de selección tenga un cuatro. Permite valores de cadena.
En Etiquetas de caso se designa una variable para identificar los puntos de los gráficos. Para cada punto de un
diagrama de dispersión podemos utilizar la herramienta de selección de puntos y mostrar el valor de la variable
de etiquetas de casos correspondiente al caso seleccionado.
Ponderación MCP. Permite obtener un modelo de mínimos cuadrados ponderados. Los puntos de los datos se
ponderan por los inversos de sus varianzas. Esto significa que las observaciones con varianzas grandes tienen
menor impacto en el análisis que las observaciones asociadas a varianzas pequeñas.
-Guardar… El botón Guardar… nos permite guardar los valores pronosticados, los residuos y medidas
relacionadas como nuevas variables que se añaden al archivo de datos de trabajo. El SPSS crea dos nuevas
variables en el editor de datos RES_1 y PRE_1 que recogen los residuos y las predicciones respectivamente.
Los valores pronosticados son los valores que el modelo de regresión predice para cada caso. Pueden ser:
2. Tipificados. Cada valor pronosticado menos el valor predicho medio y dividido por la desviación típica de
los valores pronosticados. Los valores pronosticados tipificados tienen una media de 0 y una desviación típica
de 1.
Los valores de los residuos es el valor de la variable dependiente menos el valor pronosticado por la
regresión. Pueden ser de dos tipos:
2. Tipificados. El residuo dividido por una estimación de su error típico. Los residuos tipificados, que son
conocidos también como los residuos de Pearson o residuos estandarizados, tienen una media de 0 y una
desviación típica de 1.
- Opciones… El botón Opciones…nos permite controlar los criterios por los que se eligen las variables para
su inclusión o exclusión del modelo de regresión, suprimir el término constante y controlar la manipulación
de los valores perdidos.
Cuando accedemos a la opción de Estadísticos señalaremos las estimaciones de los coeficientes de regresión,
los descriptivos, los estadísticos de ajuste del modelo, la prueba de Durbin-Watson y los diagnósticos de la
colinealidad.
9
-Cambio en R cuadrado. Nos muestra el cambio en el estadístico R2 que se produce al añadir o eliminar una
variable independiente. Si el cambio en R2 asociado a una variable es grande, significa que esa variable es un
buen predictor de la variable dependiente.
-Descriptivos. Muestra las medias de las variables, las desviaciones típicas y la matriz de correlaciones con las
probabilidades unilaterales.
-Correlaciones parcial y semiparcial. Muestra las correlaciones de orden cero, semiparcial y parcial. Los
valores del coeficiente de correlación van de -1 a 1. El signo del coeficiente indica la dirección de la relación y
su valor absoluto indica la fuerza de la relación. Los valores mayores indican que la relación es más estrecha.
La correlación parcial señala el grado de asociación lineal de cada variable independiente frente a la
dependiente excluyendo el resto de las variables independientes. Permite observar si se cumple la hipótesis de
linealidad.
-Diagnósticos de colinealidad. Muestra las tolerancias para las variables individuales y una variedad de
estadísticos para diagnosticar los problemas de colinealidad. La colinealidad (o multicolinealidad) es una
situación no deseable en la que una de las variables independientes es una función lineal de otras variables
independientes. Hay dos procedimientos: tolerancia y factor de inflación de la varianza (FIV). Valores bajos de
tolerancia o altos para FIV supone que existe colinealidad. Conviene tener en cuenta que estos métodos no
señalan las variables implicadas.
-Durbin-Watson: Muestra la prueba de D-W para los residuos correlacionados serialmente. Éste estadístico
oscila entre 0 y 4 y toma el valor 2 cuando los residuos son completamente independientes. Los valores
mayores de 2 indican autocorrelación positiva y los menores de 2 autocorrelación negativa. Suele asumirse que
los residuos son independientes si el estadístico de D-W está entre 1’5 y 2’5. También muestra estadísticos de
resumen para los residuos y los valores pronosticados.
-Diagnósticos por caso: Indica los valores por encima o por debajo de n veces alguna desviación típica. Es
decir, señala los valores atípicos que producen un gran residuo.
Gráficos
En la lista fuente tenemos la variable dependiente (DEPENDT), los valores predichos estandarizados (ZPRED),
los residuos estandarizados o tipificados (ZRESID), los residuos eliminando la puntuación del sujeto (DRESID)
y los valores predichos ajustados (SDRESID).
Si se representan los residuos tipificados frente a las predicciones podremos contrastar la linealidad y la
igualdad de las varianzas.
-Dispersión 1 de 1. Nos muestra los diagramas de dispersión que queramos de la lista de la izquierda, para cada
par de variables, alternando anterior y siguiente.
-Gráficos de residuos tipificados. En este recuadro podemos elegir uno de los gráficos:
- Histograma: Crea un histograma de los residuos tipificados con una curva normal superpuesta.
-Generar todos los gráficos parciales. Genera todos los diagramas de dispersión de la variable dependiente
con cada una de las variables independientes. En la ecuación tienen uqe haber al menos dos variables
independientes para que se generen los gráficos parciales.
1. Representar los residuos tipificados o estudentizados (ZRESID o SRESID) frente a los valores
pronosticados o predicciones tipificadas (ZPRED). El resultado tiene que ser una nube de puntos
totalmente aleatoria. Es decir, no se observan tendencias ni patrones en la representación gráfica. Si se
11
2. Representar los valores observados frente a los predichos (DEPEND vs. ZPRED). Como resultado los
valores se deben de alinear en la diagonal del cuadrante, si hubiera mucha dispersión o variabilidad
entonces que no se cumple la hipótesis de homocedasticidad. Si la dispersión no es muy grande
entonces existe igualdad de varianzas.
La hipótesis nula en los contrastes de hipótesis de las pendientes señala que beta=0. Como las tres variables
independientes tienen una pendiente estadísticamente significativa no se elimina ninguna variable del modelo.
Si alguna de ellas no hubiese sido estadísticamente significativa se podría eliminar del modelo de regresión.
variables independientes tomadas individualmente. En otras palabras, cuanto mayor la colinealidad menor es la
varianza explicada por cada variable independiente
Cómo detectar la colinealidad. Examinar la matriz de correlaciones entre las variables independientes. Si los
valores son altos es probable que exista colinealidad.
http://www.stat.wvu.edu/SRS/Modules/Applets/Regression/regression.html
DATOS
3. Dibuja una recta que una esos puntos buscando que pase lo más cercana posible por cada uno de los
puntos.
13
10. Ejecuta con esos nuevos datos de nuevo la recta de regresión con el SPSS
14
15