Está en la página 1de 30

Correlación y regresión

Lineal (simple y múltiple)

21 abril 2020
Regresión y correlación

Correlación Regresión

Análisis de la relación entre dos Predicción de una VD en


variables. función de una (s) VI (s).

§ Coeficiente de correlación de § Análisis de regresión simple o


Pearson (paramétrica) múltiple (paramétrica)

§ ρ (‘ro’) de Spearman (no § Análisis de regresión logística


paramétrica) (no paramétrica)*

§ τ (‘tau’) de Kendall (no paramétrica) § Análisis discriminante


§ X2 cuadrada (no paramétrica)* (no paramétrica)*
Correlación
Coeficiente de correlación de Pearson (r)

§ Indica si dos variables tienen la tendencia a disponerse


linealmente.

§ Toma valores entre -1 y +1:


r = - 1 relación inversa perfecta
r = 0 ausencia de relación
r = +1 relación directa perfecta

§ No implica independencia.

§ Al elevarse al cuadrado se indica la varianza de factores


comunes.
Correlaciones positivas
330 130
120
280 110
230 100
90
180 80
70
130 60
80 50
r=0,1 40
r=0,4
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200

100 100
90 90
80 80
70 70
60 60
50 50
40 r=0,8 40 r=0,99
30 30
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Correlaciones negativas
90 80
80 70
70 60
60 50
50
40
40
30
30
20 20
10 r=-0,5 10 r=-0,7
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200

80 80
70 70
60 60
50 50
40 40
30 30
20 20
10 r=-0,95 10 r=-0,999
0 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
r de Pearson

Conforme aumenta el peso,


aumenta la altura.

n = 29
Altura Peso
en cm. en Kg. 100
162 61
154 60 75
Peso (kg)

180 78
158 62 50
171 66
169 60 25
166 54
176 84 0
163 68 140 150 160 170 180 190 200 210
... ... Altura (cm)
Modelos de Regresión

Predicción de una VD en función de una (s) VI (s).

Modelos

Simple Múltiple

Lineal No lineal Lineal No lineal


Modelos de Regresión

¿Simple o múltiple?

X1

X Y X2 Y

X3
y

x
Modelos de Regresión

¿Lineal o no lineal?

100 800

90 700
600
80
500
70
400
60
300
50
200
40 100
30 0
140 150 160 170 180 190 200 140 150 160 170 180 190 200
Modelos de Regresión
Familias de funciones más frecuentes:

§ Ajuste lineal: Y=a+bX


§ Ajuste polinómico: Y=a0+a1X+...+anXn
§ Ajuste potencial: Y=a Xb
§ Ajuste exponencial: Y=a bX
§ Ajuste hiperbólico: Y=a+b/X

* donde Y es la variable explicada (VD) y X la explicativa (VI).

Seleccionar la forma de la función que mejor explica el


comportamiento de las dos variables.
Regresión lineal simple
Ejemplo:
Pearson estudió 1000 grupos familiares y encontró que los padres muy altos
tienen tendencia a tener hijos que heredan parte de esta altura, aunque
tienen tendencia a acercarse (regresar) a la media. Lo mismo puede decirse
de los padres muy bajos.

Encontró la siguiente relación:

Altura del hijo = 85cm + 0,5 altura del padre (Y = 85 + 0,5 X)

Si el padre mide 200cm ¿cuánto mide el hijo?


Se espera (predice) 85 + 0,5x200=185 cm.
Alto, pero no tanto como el padre. Regresa a la media.

Si el padre mide 120cm ¿cuánto mide el hijo?


Se espera (predice) 85 + 0,5x120=145 cm.
Bajo, pero no tanto como el padre. Regresa a la media.

Dependiendo de la altura del padre, se podría predecir la altura del hijo.


Regresión lineal simple
En el modelo de regresión lineal simple, dadas dos variables:
n Y (dependiente)
n X (independiente, explicativa, predictora)

Se busca una función de X muy simple (lineal) que nos


permita aproximar Y mediante
n Ŷ = b 0 + b 1X
n b0 (ordenada en el origen, constante)

n b1 (pendiente de la recta)

n Y e Ŷ rara vez coincidirán por muy bueno que sea el


modelo de regresión. A la cantidad
n e=Y-Ŷ se le denomina residuo o error residual.
Regresión lineal simple

Criterio de los mínimos cuadrados

Distancias verticales que miden los errores que se cometen al aproximar el


verdadero valor de Y=yi por Y=a xi+b.
Regresión lineal simple:
Bondad de ajuste
Y
Olvidemos que existe la variable X.
Veamos cuál es la variabilidad en el eje Y.

La franja sombreada indica la zona donde


varían los valores de Y.

Proyección sobre el eje Y = olvidar X


Fijémonos ahora en los errores de predicción
(líneas verticales). Los proyectamos sobre el eje Y.

Se observa que los errores de predicción, Y


residuos, están menos dispersos que la
variable Y original.

Cuanto menos dispersos sean los residuos,


mejor será la bondad del ajuste.
Regresión lineal simple
En el ejemplo de Pearson y las alturas, él encontró:
Ŷ = b 0 + b 1X
n b0=85 cm (No interpretar como altura de un hijo cuyo padre mide 0 cm)
n b1=0.5 (En promedio el hijo gana 0,5 cm por cada cm del padre)

180
b1=0.5
150
120
90
60
b0=85 cm
30
0
0
10
20
30
40
50
60
70
80
90
100
110
120
130
140
150
160
170
180
190
200
210
220
¿Dependiendo de la altura
podemos predecir el peso?
n = 29
100

75
Peso (kg)

50

25
r= 0.8036, p<0.001
0
140 150 160 170 180 190 200 210
Altura (cm)
¿Dependiendo de la altura
podemos predecir el peso?
El modelo de regresión
lineal simple es:
Peso = b0 + b1(Altura)
b0 = -101.4
b1 = 0.995

r2 = 0.6458
bondad de ajuste = 64.58%

r = 0. 8036 (coeficiente
de correlación)
¿Dependiendo de la altura
podemos predecir el peso?

Peso = -101.4cm + 0.995 altura (Y = -101.4 + 0.995 X)

Si alguien midiera 200cm ¿cuánto podría pesar?


Se espera (predice) -101.4 + 0.995 x 200 = 97.6 kg
Pesado, pero no tanto. Regresa a la media.

Si alguien midiera 154cm ¿cuánto podría pesar?


Se espera (predice) -101.4 + 0.995 x 154 =51.83 kg
Ligero, pero no tanto. Regresa a la media.

Dependiendo de la altura, se podría predecir el peso.


Ejercicio 1
RLS
Modelos de Regresión
¿Simple o múltiple?
X1

X Y X2 Y

X3
y

* donde Y es la variable explicada (VD) y X la explicativa (VI).


Regresión lineal múltiple: Aplicaciones

La regresión múltiple podría emplearse para predecir respuestas a partir de


variables explicativas (VI), sin embargo, en la investigación suele emplearse
para:

n Identificación de variables explicativas

n Detección de interacciones

n Identificación de variables confusoras


Regresión lineal múltiple:
Requisitos y limitaciones

n Linealidad

n Normalidad y equidistribución de los residuos

n Identificación de variables confusoras

n Número de variables independientes

n Colinealidad

n Observaciones anómalas
Modelo de Regresión lineal múltiple

Un modelo de regresión lineal multiple, tiene el aspecto:

n Y = b0 + b1 X 1 + … + bn X n
Donde
n Y es la VD
n El coeficiente b0 es una valor constante (valor medio de Y)
n Los términos X1 son las VI o variables explicativas
n Los coeficientes del modelo b1 son calculados de modo que los residuos sean los menores
posibles

n Para ajustar el modelo es necesario que la VD sea numérica (intervalo o razón),


aunque las VI podrían no serlo (nominal u ordinal).
Modelo de Regresión lineal múltiple

Variables indicadoras (dummy)


n Si una VI es dicotómica, puede ser codificada como 0 ó 1.
n Si una variable categórica tiene 3 modalidades, dicho factor puede ser
codificado como sigue:
VI
Modalidad I (ctrl) 0 0
Modalidad II 1 0
Modalidad III 0 1

Variables confusoras
Una variable es confusora cuando estando relacionada con alguna VI, a su
vez afecta a la VD (aunque por sí misma no afecte significativamente a
la VD).
Modelo de Regresión lineal múltiple

Interpretación de los resultados

n Significación del modelo de regresión (ANOVA)

n Coeficientes

n Bondad de ajuste

n Matriz de correlaciones
Modelo de Regresión lineal múltiple

Ejemplo: Se realizó un experimento para comparar tres métodos de aprendizaje de


lectura. Se asignaron aleatoriamente 22 sujetos a cada uno de los métodos (3 grupos
independientes). Se evaluó la capacidad de comprensión de los estudiantes antes y
después de recibir la instrucción. El problema puede ser abordado usando el análisis
de regresión mediante el siguiente modelo:
VD. La diferencia entre la capacidad “antes” y “después”.
VIs (explicativas):
n La capacidad al inicio del experimento. Es posible que los estudiantes con mejor capacidad
inicial sacaran menor provecho que el resto.
n La técnica utilizada. Al ser una variable categórica (3 niveles) puede codificarse usando dos
variables indicadoras.

Grupo Indicadora Téc. I (gr1) Indicadora Téc. II (gr2)


Control 0 0
Técnica I 1 0
Técnica II 0 1
Modelo de Regresión lineal múltiple:
Significación del modelo

Se rechaza que la variabilidad de la variable respuesta (VD) sea explicable por el


azar, se puede aceptar que existe algún tipo de asociación entre la VD y las VIs.
Modelo de Regresión lineal múltiple
Coeficientes

Y = b0 + b1X1 + … + bnXn

El modelo ajustado de regresión lineal múltiple es:

Diferencia = 13.557 + 3.406 (Técnica I) + 2.827 (Técnica II) + (-


0.467) (Antes)
Modelo de Regresión lineal múltiple:
Bondad de ajuste

Para evaluar la bondad de ajuste se emplean los valores de R cuadrada y R cuadrada


corregida.

También podría gustarte