Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Correlaciones y Analisis de Regresion PDF
Correlaciones y Analisis de Regresion PDF
Correlaciones y
Análisis de
Regresión
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝑟𝑥𝑦 =
𝑛𝑠𝑥 𝑦𝑥
5. Correlaciones y Análisis de Regresión
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝑟𝑥𝑦 =
𝑛𝑠𝑥 𝑦𝑥
Como vimos en el tema 1, este coeficiente toma valores entre -1 y 1, con dos informaciones: el
sentido (positivo si es una relación directa y negativo si es inversa) y la intensidad (de 0 no
relación o independencia a 1 relación máxima o perfecta).
1000,0
500,0
0,0
0,000 50,000 100,000
e.5.2. ¿El Nivel Socio-económico de los estudiantes está relacionado con el Rendimiento en
Matemáticas?
En el tema 1 lo vimos para unos pocos datos y con Excel. El SPSS no sólo nos da una estimación
de ese índice, sino que nos dice si esa relación es estadísticamente significativa. Es decir si lo
encontrado para la muestra puede ser extrapolable a la población.
Ho: ρxy=0
H1: ρxy≠0
Como se señaló en el tema 3, los estadísticos (referidos a la población) se denotan con una
letra griega, en este caso “ρ”, mientras que los parámetros (referidos a la muestra) lo hacen
con letras latinas (r).
Lo que en realidad le hemos pedido es que nos calcule las correlaciones variadas de "todas con
todas", es decir la matriz de correlaciones donde nos aparecen las dos pedidas y una tercera
más.
Nivel socio-
Rendimiento en Rendimiento en económico de la
Matemáticas Lengua familia
Rendimiento en Matemáticas Correlación de Pearson 1 ,680** ,329**
Sig. (bilateral) ,000 ,000
N 6598 6598 6598
Rendimiento en Lengua Correlación de Pearson ,680** 1 ,338**
Sig. (bilateral) ,000 ,000
N 6598 6598 6598
Nivel socio-económico de la Correlación de Pearson ,329** ,338** 1
familia Sig. (bilateral) ,000 ,000
N 6598 6598 6598
**. La correlación es significativa al nivel 0,01 (bilateral).
Como resultado, nos aparece la llamada "matriz de correlaciones", es decir todas las
correlaciones posibles entre las tres variables (tabla 5.1). Como puede observarse es una
matriz simétrica con unos en la diagonal. La información que contiene cada celda es:
Como ya es habitual, comparamos el nivel crítico con nuestro nivel de confianza (α). Así:
Si Sig > α: aceptamos la Hipótesis Nula, luego no hay relación entre ambas variables.
Si Sig < α: rechazamos, la Hipótesis Nula, luego aceptamos la Alterna. Ello implica que
la correlación es significativa (estadísticamente diferente de 0).
Como hemos señalado, el índice de correlación de Pearson exige que las variables sean
cuantitativas, pero también que se distribuyan normalmente. Si no se cumplen alguna de las
dos condiciones, o las dos, tenemos dos alternativas:
Tau-b de Kendall. Estima la relación entre dos variables ordinales. Se interpreta igual
que el índice de Pearson.
Rho de Sperman, es igual que el coeficiente de correlación de Pearson, pero tras
transformar las puntuaciones originales en rangos.
En ambos casos, el procedimiento de cálculo, las tablas de resultado y su interpretación son
exactamente igual que en el caso del Coeficiente de Correlación de Pearson.
e.5.4. Y si restamos el efecto del Nivel Socio-económico de las familias, ¿sigue influyendo?
El procedimiento es sencillo:
La situación más sencilla se da cuando sólo hay una variable independiente y otra
dependiente: entonces se llama Análisis de Regresión Simple; si son varias independientes es
el Análisis de Regresión Múltiple. Y si, como vimos en el apartado anterior, la relación es lineal,
tenemos una Análisis de regresión lineal (simple o múltiple).
Veamos un poco la lógica del Análisis de Regresión. Si tenemos dos variables cuantitativas
sobre una misma muestra, podemos representarlas gráficamente mediante un gráfico de
dispersión (ver figura 5.3). Si, como vimos en el apartado 5.1, estas variables están
relacionadas, la nube de puntos que se genera tendrá una forma alargada. La recta que mejor
se ajusta a esos puntos, que minimiza las distancias, es la llamada Recta de regresión.
Dicha recta, como cualquier recta en el plano, puede escribirse algebraicamente como:
𝑦 = 𝑎 + 𝑏𝑥
De esta forma, si sabemos la ecuación de regresión que determina la relación de una variable
con otra, es posible predecir una variable en función de la otra. Así, si la ecuación es "y=3+2x"
y “x” es 3, “y” tomará el valor de 9.
Como los puntos no se ajustan completamente a la recta, en realidad habrá que considerar ese
elemento como el error. De esta forma, la ecuación de regresión se denota formalmente:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝜀𝑖
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Método
1 Rendimiento en . Introducir
Lenguaa
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Rendimiento en Matemáticas
ANOVAb
Suma de
Modelo cuadrados gl Media cuadrática F Sig.
1 Regresión 1013537,328 1 1013537,328 5664,751 ,000a
Residual 1180156,464 6596 178,920
Coeficientesa
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error típ. Beta t Sig.
1 (Constante) ,583 ,706 ,825 ,409
También se aporta información acerca de si los coeficientes de las variables hacen una
aportación significativa al modelo.
De tal forma que un estudiante que obtenga 50 puntos en Lengua obtendrá 39,04 puntos en
Matemáticas.
Aunque hemos señalado que uno de los usos del Análisis de Regresión es la predicción, hay
más utilidades:
Más adelante veremos los supuestos que exige el uso del análisis de regresión.
e.5.5. Estima la ecuación de regresión múltiple para Rendimiento en Matemáticas como variable
dependiente y Nivel socio-económico de las familias, Actitud hacia las Matemáticas y
Satisfacción con la escuela y Género como independientes.
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error típ. Beta t Sig.
1 (Constante) 50,555 ,658 76,795 ,000
Nivel socio-económico de la 5,623 ,205 ,308 27,405 ,000
familia
Actitud hacia las matemáticas 3,809 ,210 ,209 18,161 ,000
(en z)
Satisfacción del estudiante hacia 1,796 ,211 ,098 8,524 ,000
el centro
Género del estudiante 1,140 ,412 ,031 2,769 ,006
a. Variable dependiente: Rendimiento en Matemáticas
La R2 o varianza explicada por el modelo es de 0,171, es decir estas tres variables explican el
17% de la variabilidad del Rendimiento en Matemáticas del estudiante.
La tabla Coeficientes indica, en primer término, que todos los coeficientes hacen una
aportación significativa (todos tiene un nivel crítico menor que nuestro α=0,05). También el
valor de esos coeficientes. Así, la ecuación de regresión pedida es:
Veamos cómo se interpreta esta ecuación de regresión. Con este ejemplo, los datos indican:
El SPSS permite utilizar diferentes métodos para seleccionar qué variable independientes
incluir en el modelo de regresión y en qué orden. Por defecto, utiliza el método Introducir,
pero hay más (figura 5.6).
FIGURA 5.6. ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE CON LAS DIFERENTES ALTERNATIVAS DE MÉTODOS DE
SELECCIÓN DE VARIABLES
e.5.6. Estima la ecuación de regresión múltiple para Rendimiento en Matemáticas como variable
dependiente y Nivel socio-económico de las familias, Actitud hacia las Matemáticas y
Satisfacción con la escuela y Género como independientes, con el método Pasos
Sucesivos.
Esta técnica estadística, como todas, exige el cumplimiento de una serie de supuestos sin cuyo
cumplimiento los resultados pueden verse seriamente alterados. Aunque este texto no
pretende ser un libro de estadística, se señalarán por su importancia:
5.6. Ejercicios
e.5.7. ¿Los alumnos más contentos con la escuela obtiene mejor rendimiento en Lengua? ¿Y si
contralamos el efecto del nivel socio-económico de las familias?
e.5.8. ¿Cuál es la variable que más varianza del rendimiento en Lengua de los estudiantes
explica? ¿Cuánto es?
e.5.9. Con las variables de la base de datos de trabajo, elabora el modelo de regresión lineal que
más varianza del rendimiento en Matemáticas de los estudiantes explique (sin incluir los
otros rendimientos).
e.5.10. Elabora el modelo "lógico" que explique la autoestima de los estudiantes con los datos
que se poseen.
e.5.11. Elabora el mejor modelo de regresión que explique Rendimiento en Ciencia Naturales
con tres variables independientes y verifica el cumplimiento de los supuestos.
1
Los residuos (o residuales) se pueden guardar mediante el cuadro de diálogo Regresión -> Lineal ->
Guardar