Correlaciones y Analisis de Regresion PDF

5
Correlaciones y
Análisis de
Regresión
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝑟𝑥𝑦 =
𝑛𝑠𝑥 𝑦𝑥
5. Correlaciones y Análisis de Regresión
En el tema 1 estudiamos y estimamos el índice de correlación de Pearson con Excel. Si

recordáis, con este índice se estimaba la relación entre dos variables cuantitativas (de intervalo
o de razón). En este tema 5 profundizaremos en el conocimiento de este índice, así como
otros, y abordaremos una poderosa estrategia de análisis basada en la correlación: el Análisis
de Regresión.
5.1. Correlación Lineal Bivariada

El índice de correlación es una estimación del grado en el que dos variables varían
conjuntamente. Esta correlación (o relación) puede ser lineal, curvilínea, logística... En
investigación educativa, la gran mayoría de las correlaciones que se trabajan son lineales, por
lo que nos centraremos en estas. Si la correlación se da entre dos variables se denomina
correlación simple o bivariada.
Dentro de las correlaciones lineales bivariadas tenemos diferentes índices o coeficientes,

dependiendo del tipo de variables que tengamos. Los más habituales y que nos ofrece el SPSS
en el cuadro "Correlaciones bivariadas" son:
 Coeficiente de correlación de Pearson
 Rho de Spearman
 Tau-b de Kendall
El Coeficiente de Correlación de Pearson es el más utilizado para estudiar el grado de relación
lineal entre dos variables cuantitativas (de intervalo o de razón) y se obtiene mediante la
siguiente fórmula:
∑𝑛𝑖=1 𝑥𝑖 𝑦𝑖
𝑟𝑥𝑦 =
𝑛𝑠𝑥 𝑦𝑥
Como vimos en el tema 1, este coeficiente toma valores entre -1 y 1, con dos informaciones: el
sentido (positivo si es una relación directa y negativo si es inversa) y la intensidad (de 0 no
relación o independencia a 1 relación máxima o perfecta).
FIGURA 5.1. GRÁFICOS DE DISPERSIÓN CON TRES CORRELACIONES DIFERENTES

Correlación alta e inversa Correlación alta y directa Correlación nula (independencia)
1500,0
1000,0
500,0
0,0
0,000 50,000 100,000
F.J. Murillo y C. Martínez-Garrido Página 66

e.5.1. ¿Hay relación en las calificaciones en Lengua y en Matemáticas?,
e.5.2. ¿El Nivel Socio-económico de los estudiantes está relacionado con el Rendimiento en
Matemáticas?
En el tema 1 lo vimos para unos pocos datos y con Excel. El SPSS no sólo nos da una estimación
de ese índice, sino que nos dice si esa relación es estadísticamente significativa. Es decir si lo
encontrado para la muestra puede ser extrapolable a la población.
De esta forma, la hipótesis que está validando es:
Ho: ρxy=0
H1: ρxy≠0
Como se señaló en el tema 3, los estadísticos (referidos a la población) se denotan con una
letra griega, en este caso “ρ”, mientras que los parámetros (referidos a la muestra) lo hacen
con letras latinas (r).
Vamos con los ejercicios propuestos. Se trata, en definitiva, de estimar el coeficiente de

correlación de Pearson entre Rendimiento y Matemáticas y Rendimiento en Lengua y entre
Rendimiento en Matemáticas y Nivel Socio-económico de las familias. Y, a continuación, saber
si esa correlación es estadísticamente significativa.
Elije en los menús: Analizar -> Correlaciones -> Bivariadas
FIGURA 5.2. CUADRO DE DIÁLOGO CORRELACIONES BIVARIADAS

1. Selecciona las tres variables que vamos a estudiar (Rdto_Matemáticas,

Rdto_Lengua y N_SocEc) e introdúcelas en "Variables".
2. Acepta, las opciones por defecto son las que nos interesan.
Lo que en realidad le hemos pedido es que nos calcule las correlaciones variadas de "todas con
todas", es decir la matriz de correlaciones donde nos aparecen las dos pedidas y una tercera
más.
TABLA 5.1. RESULTADOS DE LAS CORRELACIONES BIVARIADAS
Nivel socio-
Rendimiento en Rendimiento en económico de la
Matemáticas Lengua familia
Rendimiento en Matemáticas Correlación de Pearson 1 ,680** ,329**
Sig. (bilateral) ,000 ,000
N 6598 6598 6598
Rendimiento en Lengua Correlación de Pearson ,680** 1 ,338**
Sig. (bilateral) ,000 ,000
N 6598 6598 6598
Nivel socio-económico de la Correlación de Pearson ,329** ,338** 1
familia Sig. (bilateral) ,000 ,000
N 6598 6598 6598
**. La correlación es significativa al nivel 0,01 (bilateral).

Como resultado, nos aparece la llamada "matriz de correlaciones", es decir todas las
correlaciones posibles entre las tres variables (tabla 5.1). Como puede observarse es una
matriz simétrica con unos en la diagonal. La información que contiene cada celda es:
1. Correlación Pearson: El coeficiente de correlación entre las dos variables que

aparecen en el encabezamiento de fila y de columna.
2. Sig: El nivel crítico (la significación) que indica la probabilidad de aceptar la Hipótesis
nula, es decir que la correlación sea 0.
3. N: El número de estudiantes utilizado para hacer cada análisis.
Como ya es habitual, comparamos el nivel crítico con nuestro nivel de confianza (α). Así:
 Si Sig > α: aceptamos la Hipótesis Nula, luego no hay relación entre ambas variables.
 Si Sig < α: rechazamos, la Hipótesis Nula, luego aceptamos la Alterna. Ello implica que
la correlación es significativa (estadísticamente diferente de 0).
En este caso, las tres correlaciones son estadísticamente significativas.
Como hemos señalado, el índice de correlación de Pearson exige que las variables sean
cuantitativas, pero también que se distribuyan normalmente. Si no se cumplen alguna de las
dos condiciones, o las dos, tenemos dos alternativas:
 Tau-b de Kendall. Estima la relación entre dos variables ordinales. Se interpreta igual
que el índice de Pearson.
 Rho de Sperman, es igual que el coeficiente de correlación de Pearson, pero tras
transformar las puntuaciones originales en rangos.
En ambos casos, el procedimiento de cálculo, las tablas de resultado y su interpretación son
exactamente igual que en el caso del Coeficiente de Correlación de Pearson.
5.2. Correlación parcial

Con la Correlación parcial es posible analizar la correlación lineal entre dos variables
controlando el efecto de otra u otras extrañas. Los coeficientes de Correlación Parcial, por
tanto, estiman el grado de relación lineal entre dos variables tras quitar el efecto de una
tercera, cuarta o quinta variable.
e.5.3. ¿El Clima de aula influye en el Rendimiento en Matemáticas de los estudiantes?
e.5.4. Y si restamos el efecto del Nivel Socio-económico de las familias, ¿sigue influyendo?
El procedimiento es sencillo:
Analizar -> Correlaciones -> Parciales

Se seleccionan las variables a correlacionar en "Variables" (Rend_Matematicas y Clima_aula), y

la variable a controlar en "Controlado para" (N_SocEc). El resultado es aparentemente igual
que el de la Correlación Lineal Bivariada, pero ya está descartada la influencia de la variable
controlada.
En este caso, si estimamos la Correlación Bivariada entre Clima de aula y Rendimiento en

Matemáticas, encontramos que la correlación es de la correlación es de 0,140
(estadísticamente significativo); y controlando por Nivel Socioeconómico de 0,100 (también
estadísticamente significativo). Es decir, el clima de aula incide en el rendimiento, incluso
controlando el efecto de nivel socio-económico.
5.3. Análisis de Regresión Simple

El análisis de regresión es una técnica que estudia la relación entre variables cuantitativas. Su
uso más habitual es la predicción (aunque, como luego veremos, tiene más utilidades), de tal
forma que a través del análisis de regresión es posible predecir una o varias variables a partir
del conocimiento de otra u otras relacionadas. La variables predictoras (o explicativas) son las
independientes y las pronosticadas (o explicadas) son las dependientes.
La situación más sencilla se da cuando sólo hay una variable independiente y otra
dependiente: entonces se llama Análisis de Regresión Simple; si son varias independientes es
el Análisis de Regresión Múltiple. Y si, como vimos en el apartado anterior, la relación es lineal,
tenemos una Análisis de regresión lineal (simple o múltiple).
Veamos un poco la lógica del Análisis de Regresión. Si tenemos dos variables cuantitativas
sobre una misma muestra, podemos representarlas gráficamente mediante un gráfico de
dispersión (ver figura 5.3). Si, como vimos en el apartado 5.1, estas variables están
relacionadas, la nube de puntos que se genera tendrá una forma alargada. La recta que mejor
se ajusta a esos puntos, que minimiza las distancias, es la llamada Recta de regresión.
Dicha recta, como cualquier recta en el plano, puede escribirse algebraicamente como:
𝑦 = 𝑎 + 𝑏𝑥
en donde: y es la variable dependiente,

a es el punto de corte con el eje y (o intercepto),
b es la pendiente, y
x es la variable independiente
FIGURA 5.3. RECTA DE REGRESIÓN

De esta forma, si sabemos la ecuación de regresión que determina la relación de una variable
con otra, es posible predecir una variable en función de la otra. Así, si la ecuación es "y=3+2x"
y “x” es 3, “y” tomará el valor de 9.
Como los puntos no se ajustan completamente a la recta, en realidad habrá que considerar ese
elemento como el error. De esta forma, la ecuación de regresión se denota formalmente:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝜀𝑖
Con esta información, podemos hacer un trabajo práctico.
e.5.5. Determina la ecuación de regresión que ayude a predecir el Rendimiento en Matemáticas

de los estudiantes (variable dependiente) a partir de su rendimiento en Lengua.
e.5.6. Si un estudiante ha obtenido 50 puntos en Lengua, ¿qué rendimiento se predice que

tendrá en Matemáticas?
El procedimiento es análogo a lo visto:
Analizar -> Regresión -> Lineal
E incluimos Rendimiento en Matemáticas como variable dependiente, y Rendimiento en

Lengua como independiente (figura 5.4).
FIGURA 5.4. ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

Los resultados aportan la siguiente información (tabla 5.2).
TABLA 5.2. RESULTADOS DEL ANÁLISIS DE REGRESIÓN LINEAL SIMPLE
Variables introducidas/eliminadasb
Variables Variables
Modelo introducidas eliminadas Método
1 Rendimiento en . Introducir
Lenguaa
a. Todas las variables solicitadas introducidas.
b. Variable dependiente: Rendimiento en Matemáticas
Resumen del modelo

R cuadrado Error típ. de la
Modelo R R cuadrado corregida estimación
1 ,680a ,462 ,462 13,376099
a. Variables predictoras: (Constante), Rendimiento en Lengua
ANOVAb
Suma de
Modelo cuadrados gl Media cuadrática F Sig.
1 Regresión 1013537,328 1 1013537,328 5664,751 ,000a
Residual 1180156,464 6596 178,920
Total 2193693,791 6597

a. Variables predictoras: (Constante), Rendimiento en Lengua
b. Variable dependiente: Rendimiento en Matemáticas
Coeficientesa

Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error típ. Beta t Sig.
1 (Constante) ,583 ,706 ,825 ,409
Rendimiento en Lengua ,769 ,010 ,680 75,265 ,000

a. Variable dependiente: Rendimiento en Matemáticas
Nos aparecen cuatro tablas:
1. La tabla Variables introducidas/eliminadas nos muestra las variables del modelo y el

método de incorporación de variables (que luego veremos)
2. La tabla Resumen del modelo aporta información de la bondad de ajuste, es decir, el
coeficiente de correlación múltiple y su cuadrado. En este caso como son sólo dos
variables es el coeficiente de correlación de Pearson que conocemos. La información
interesante es la R2, que es una estimación la proporción de varianza de la variable
dependiente explicada por la variable dependiente. Cuanta más alta sea esta cifra
mejor podremos predecir una variable en función de la otra. En nuestro caso 0,462; es
decir el 46,2% de las diferencias de las calificaciones en Matemáticas pueden ser
explicadas por les diferencias en Lengua.
3. La tabla ANOVA, nos aporta información sobre si existe o no relación significativa entre
la variable independiente y la dependiente. Como siempre, la información clave nos la
aporta el nivel crítico (Sig). Si es menor que nuestro α, concluimos que hay relación
significativa (diferente de 0) y por lo tanto que le ecuación de regresión tiene sentido.
4. La tabla Coeficientes nos aporta información sobre los coeficientes de la recta de
regresión. En dos formas:
 Coeficientes no estandarizados, donde el coeficiente de la constante es el
intercepto o punto de corte y el coeficiente de la variable es la pendiente.
 Coeficientes estandarizados, que son los obtenidos cuando la ecuación de
regresión se obtiene tras convertir las variables de origen en típicas. EN ese caso la
constante (o intercepto) es cero.
También se aporta información acerca de si los coeficientes de las variables hacen una
aportación significativa al modelo.
Es decir, con esta información, la ecuación de regresión solicitada es:
Ren_Mat = 0,583 + 0,769·Ren_Leng
De tal forma que un estudiante que obtenga 50 puntos en Lengua obtendrá 39,04 puntos en
Matemáticas.
Aunque hemos señalado que uno de los usos del Análisis de Regresión es la predicción, hay
más utilidades:

1. Descripción: Permite describir la relación entre la variable dependiente y la o las

variables predictoras.
2. Control: Posibilita controlar el comportamiento o variación de la variable de respuesta
de acuerdo a los valores que asumen las variables predictoras.
3. Identificación: Para determinar qué factores inciden en una variables dependiente de
forma conjunta.
e.5.5. Determina la ecuación de regresión que describa la relación entre Rendimiento en

Matemáticas de los estudiantes a partir del nivel Socio-económico de sus familias, ¿qué
porcentaje de varianza explica la variable dependiente?
Más adelante veremos los supuestos que exige el uso del análisis de regresión.
5.4. Análisis de Regresión Múltiple

Una sola variable independiente hace una pobre predicción de la variable independiente, por
lo que lo habitual es utilizar varias de ellas, es esta forma tenemos el Análisis de Regresión
Múltiple.
La esencia es la misma, la única diferencia es que la ecuación de regresión no es de una recta,

sino de un hiperplano en un espacio de múltiples dimensiones. Matemáticamente se expresa
así:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + 𝛽3 𝑥3𝑖 + ⋯ + 𝛽𝑛 𝑥𝑛𝑖 + 𝜀𝑖
Donde cada β es la pendiente de cada variable x.
Veámoslo con un ejemplo.
e.5.5. Estima la ecuación de regresión múltiple para Rendimiento en Matemáticas como variable
dependiente y Nivel socio-económico de las familias, Actitud hacia las Matemáticas y
Satisfacción con la escuela y Género como independientes.
Figura 5.5. Análisis de regresión lineal múltiple

Los resultados son análogos al análisis de regresión simple (tabla 5.3).
TABLA 5.3. RESULTADOS DEL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE
Coeficientes
Coeficientes no estandarizados tipificados
Modelo B Error típ. Beta t Sig.
1 (Constante) 50,555 ,658 76,795 ,000
Nivel socio-económico de la 5,623 ,205 ,308 27,405 ,000
familia
Actitud hacia las matemáticas 3,809 ,210 ,209 18,161 ,000
(en z)
Satisfacción del estudiante hacia 1,796 ,211 ,098 8,524 ,000
el centro
Género del estudiante 1,140 ,412 ,031 2,769 ,006
a. Variable dependiente: Rendimiento en Matemáticas
La R2 o varianza explicada por el modelo es de 0,171, es decir estas tres variables explican el
17% de la variabilidad del Rendimiento en Matemáticas del estudiante.
La tabla Coeficientes indica, en primer término, que todos los coeficientes hacen una
aportación significativa (todos tiene un nivel crítico menor que nuestro α=0,05). También el
valor de esos coeficientes. Así, la ecuación de regresión pedida es:
Rend_Mat = 50,55 + 5,62·Niv_SEc + 3,8·Act_Mat + 1,79·Sac_Cen_Est + 1,14·Genero
Hemos incluido en el modelo la variable "Género" que obviamente no es cuantitativa sino

nominal dicotómica. Ello es posible, la única precaución es que tiene que estar codificada
como 0-1. De esta forma, toma el nombre de variable dummy y puede ser introducida en el
modelo.

Veamos cómo se interpreta esta ecuación de regresión. Con este ejemplo, los datos indican:
 Un estudiante "medio" obtiene 50,55 puntos de rendimiento en Matemáticas (medio y

varón, como luego se verá),
 por cada unidad de Nivel Socio-económico aumente o disminuya, aumentará o
disminuirá 5,62puntos su rendimiento (como está tipificada esa unidad es la deviación
típica),
 por cada unidad de Actitud hacia las matemáticas aumente o disminuya, aumentará o
disminuirá 3,8 puntos su rendimiento,
 por cada unidad de "Satisfacción hacia la escuela" aumente o disminuya, aumentará o
disminuirá 1,79puntos su rendimiento (como está tipificada esa unidad es la deviación
típica), y
 si el estudiante es mujer (por que la variable está codificada 0 niño y 1 niña) su
puntuación aumentará 1,14 puntos.
Una precaución: si en un modelo de regresión algún coeficiente sale no significativo no es

suficiente dejarlo así, es preciso quitarlo del modelo y volver a estimar el nuevo modelo.
Métodos de selección de variables
El SPSS permite utilizar diferentes métodos para seleccionar qué variable independientes
incluir en el modelo de regresión y en qué orden. Por defecto, utiliza el método Introducir,
pero hay más (figura 5.6).
FIGURA 5.6. ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE CON LAS DIFERENTES ALTERNATIVAS DE MÉTODOS DE
SELECCIÓN DE VARIABLES
Son los siguientes:

 Introducir. Conforma la ecuación utilizando todas las variables independientes y en el

orden en que se le ha indicado. Es el método utilizado por defecto.
 Pasos sucesivos. El SPSS selecciona qué variables formarán parte del modelo y en
qué orden. Así, selecciona en primer lugar la variable que más correlaciona con la
variable independiente y elabora el modelo 1. Con la varianza que queda por
explicar, selecciona la variable que más explica y la introduce en la ecuación
formando el modelo 2, y así sucesivamente hasta que ninguna variable hace una
aportación significativa. Es el procedimiento más cómodo y por ello el más popular.
 Eliminar: Elimina en un solo paso todas las variables independientes y ofrece los
coeficientes que se obtendrían en el caso de que se utilizaran independientemente.
 Atrás (eliminación hacia atrás). Por el mismo, se introducen todas las variables en la
ecuación y después se van excluyendo una tras otra. Aquella variable que tenga la
menor correlación parcial con la variable dependiente será la primera en ser
considerada para su exclusión. Si satisface el criterio de eliminación, será eliminada.
Tras haber excluido la primera variable, se pondrá a prueba aquella variable, de las
que queden en la ecuación, que presente una correlación parcial más pequeña. El
procedimiento termina cuando ya no quedan en la ecuación variables que satisfagan
el criterio de exclusión.
 Adelante (selección hacia adelante). Las variables independientes son introducidas
secuencialmente en el modelo. La primera variable que se considerará para ser
introducida en la ecuación será aquélla que tenga mayor correlación, positiva o
negativa, con la variable dependiente. Dicha variable será introducida en la ecuación
sólo si satisface el criterio de entrada. Si ha entrado la primera variable, se
considerará como próxima candidata la variable independiente que no esté en la
ecuación y cuya correlación parcial sea la mayor. Cuando no queden variables que
satisfagan este criterio el procedimiento termina.
e.5.6. Estima la ecuación de regresión múltiple para Rendimiento en Matemáticas como variable
dependiente y Nivel socio-económico de las familias, Actitud hacia las Matemáticas y
Satisfacción con la escuela y Género como independientes, con el método Pasos
Sucesivos.
Supuestos del Análisis de Regresión Lineal
Esta técnica estadística, como todas, exige el cumplimiento de una serie de supuestos sin cuyo
cumplimiento los resultados pueden verse seriamente alterados. Aunque este texto no
pretende ser un libro de estadística, se señalarán por su importancia:
 Linealidad. Si la relación entre las variables no es una línea (un hiperplano) el

resultado puede ser erróneo: puede señalar no relación cuando la hay. La forma de
estudiarlo es mediante un gráfico de dispersión.

 Independencia: Los residuos1 (es decir, la diferencia entre el valor esperado y el

pronosticado) deben ser independientes entre sí. Es decir, los residuos son una
variable aleatoria. Se verifica mediante el estadístico Durbin-Watson (recuadro de
diálogo Regresión ->Lineal-> Estadísticos)
 Normalidad. Los residuos de cada variable independiente se distribuyen como una
curva normal con media 0. Hay varios procedimientos, pero uno de ellos es estimar la
prueba de Kolmogorov-Smirnov (ya vista) para los residuos. Una comprobación visual
nos la ofrece este mismo menú: Regresión -> Lineal -> Gráficos.
 Homocedasticidad. La varianza de los residuos de las variables independientes (o de
la combinación de ellos) es constante. Se obtiene representando los valores
pronosticados (ZPRED) y los residuos (ZRESID): si no hay ninguna pauta es que son
homocedásticos.
 No-colinealidad. No existencia de una relación lineal entre ninguna ni las variables
independientes. Se estudia mediante la opción "Diagnóstico de colinealidad" en
Regresión -> Lineal -> Estadísticos.
5.6. Ejercicios
e.5.7. ¿Los alumnos más contentos con la escuela obtiene mejor rendimiento en Lengua? ¿Y si
contralamos el efecto del nivel socio-económico de las familias?
e.5.8. ¿Cuál es la variable que más varianza del rendimiento en Lengua de los estudiantes
explica? ¿Cuánto es?
e.5.9. Con las variables de la base de datos de trabajo, elabora el modelo de regresión lineal que
más varianza del rendimiento en Matemáticas de los estudiantes explique (sin incluir los
otros rendimientos).
e.5.10. Elabora el modelo "lógico" que explique la autoestima de los estudiantes con los datos
que se poseen.
e.5.11. Elabora el mejor modelo de regresión que explique Rendimiento en Ciencia Naturales
con tres variables independientes y verifica el cumplimiento de los supuestos.
1
Los residuos (o residuales) se pueden guardar mediante el cuadro de diálogo Regresión -> Lineal ->
Guardar

Correlaciones y Analisis de Regresion PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Correlaciones y Analisis de Regresion PDF

Cargado por

Copyright:

Formatos disponibles

5

5. Correlaciones y Análisis de Regresión

En el tema 1 estudiamos y estimamos el índice de correlación de Pearson con Excel. Si

5.1. Correlación Lineal Bivariada

Dentro de las correlaciones lineales bivariadas tenemos diferentes índices o coeficientes,

FIGURA 5.1. GRÁFICOS DE DISPERSIÓN CON TRES CORRELACIONES DIFERENTES

F.J. Murillo y C. Martínez-Garrido Página 66

e.5.1. ¿Hay relación en las calificaciones en Lengua y en Matemáticas?,

De esta forma, la hipótesis que está validando es:

Vamos con los ejercicios propuestos. Se trata, en definitiva, de estimar el coeficiente de

Elije en los menús: Analizar -> Correlaciones -> Bivariadas

FIGURA 5.2. CUADRO DE DIÁLOGO CORRELACIONES BIVARIADAS

F.J. Murillo y C. Martínez-Garrido Página 67

1. Selecciona las tres variables que vamos a estudiar (Rdto_Matemáticas,

TABLA 5.1. RESULTADOS DE LAS CORRELACIONES BIVARIADAS

F.J. Murillo y C. Martínez-Garrido Página 68

1. Correlación Pearson: El coeficiente de correlación entre las dos variables que

En este caso, las tres correlaciones son estadísticamente significativas.

5.2. Correlación parcial

e.5.3. ¿El Clima de aula influye en el Rendimiento en Matemáticas de los estudiantes?

Analizar -> Correlaciones -> Parciales

F.J. Murillo y C. Martínez-Garrido Página 69

Se seleccionan las variables a correlacionar en "Variables" (Rend_Matematicas y Clima_aula), y

En este caso, si estimamos la Correlación Bivariada entre Clima de aula y Rendimiento en

5.3. Análisis de Regresión Simple

en donde: y es la variable dependiente,

FIGURA 5.3. RECTA DE REGRESIÓN

F.J. Murillo y C. Martínez-Garrido Página 70

Con esta información, podemos hacer un trabajo práctico.

e.5.5. Determina la ecuación de regresión que ayude a predecir el Rendimiento en Matemáticas

e.5.6. Si un estudiante ha obtenido 50 puntos en Lengua, ¿qué rendimiento se predice que

El procedimiento es análogo a lo visto:

Analizar -> Regresión -> Lineal

E incluimos Rendimiento en Matemáticas como variable dependiente, y Rendimiento en

FIGURA 5.4. ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

F.J. Murillo y C. Martínez-Garrido Página 71

Los resultados aportan la siguiente información (tabla 5.2).

TABLA 5.2. RESULTADOS DEL ANÁLISIS DE REGRESIÓN LINEAL SIMPLE

Resumen del modelo

Total 2193693,791 6597

F.J. Murillo y C. Martínez-Garrido Página 72

Rendimiento en Lengua ,769 ,010 ,680 75,265 ,000

Nos aparecen cuatro tablas:

1. La tabla Variables introducidas/eliminadas nos muestra las variables del modelo y el

Es decir, con esta información, la ecuación de regresión solicitada es:

Ren_Mat = 0,583 + 0,769·Ren_Leng

F.J. Murillo y C. Martínez-Garrido Página 73

1. Descripción: Permite describir la relación entre la variable dependiente y la o las

e.5.5. Determina la ecuación de regresión que describa la relación entre Rendimiento en

5.4. Análisis de Regresión Múltiple

La esencia es la misma, la única diferencia es que la ecuación de regresión no es de una recta,

𝑦𝑖 = 𝛽0 + 𝛽1 𝑥1𝑖 + 𝛽2 𝑥2𝑖 + 𝛽3 𝑥3𝑖 + ⋯ + 𝛽𝑛 𝑥𝑛𝑖 + 𝜀𝑖

Donde cada β es la pendiente de cada variable x.

Veámoslo con un ejemplo.

Figura 5.5. Análisis de regresión lineal múltiple

F.J. Murillo y C. Martínez-Garrido Página 74

Los resultados son análogos al análisis de regresión simple (tabla 5.3).

TABLA 5.3. RESULTADOS DEL ANÁLISIS DE REGRESIÓN LINEAL MÚLTIPLE

Rend_Mat = 50,55 + 5,62·Niv_SEc + 3,8·Act_Mat + 1,79·Sac_Cen_Est + 1,14·Genero

Hemos incluido en el modelo la variable "Género" que obviamente no es cuantitativa sino

F.J. Murillo y C. Martínez-Garrido Página 75

 Un estudiante "medio" obtiene 50,55 puntos de rendimiento en Matemáticas (medio y

Una precaución: si en un modelo de regresión algún coeficiente sale no significativo no es