Está en la página 1de 52

REGRESIÓN LINEAL SIMPLE

TEMA 1

1
1. INTRODUCCIÓN
• Determinar la ecuación de regresión sirve para:
– Describir de manera concisa la relación entre
variables.
– Predecir los valores de una variable en función de la
otra.
• Veremos EXCLUSIVAMENTE relaciones lineales.
• La regresión lineal simple estudia la relación
entre sólo dos variables (el caso de relación más
sencillo posible).

2
1. INTRODUCCIÓN

DENOMINACIÓN DE LAS VARIABLES


X Y
predictora, regresor criterio
explicativa explicada
predeterminada respuesta
independiente dependiente
exógena endógena
(explica la variabilidad de otra variable) (su variabilidad es explicada por otra
variable)

3
2. INTERPRETACIÓN DEL DIAGRAMA
DE DISPERSIÓN
A grandes rasgos, como paso previo, el diagrama
de dispersión permite vislumbrar si:
–Existe relación entre variables.
–La relación es lineal o de otro tipo.
– Intensidad de la relación (por la estrechez de la
nube de puntos).
– Valores anómalos (outliers) distorsionan la
relación.
–La dispersión de los datos es o no uniforme
(homocedasticidad vs. heterocedasticidad).
4
3. ESPECIFICACIÓN DEL MODELO DE
REGRESIÓN LINEAL SIMPLE

Y    X  

x Y
5
3. ESPECIFICACIÓN DEL MODELO DE
REGRESIÓN LINEAL SIMPLE
• :
–Puede denominarse:
• Error
• Perturbación
• Residual
–Se debe fundamentalmente a:
•Medición incorrecta de la variable.
•Influencia de otras variables no incluidas en el modelo.
•Variabilidad inherente a la conducta humana.

6
3.ESPECIFICACIÓN DEL MODELO DE
REGRESIÓN LINEAL SIMPLE
Y    X  
^
Y Y
^
Y    X
^
  Y Y

7
3.1. Supuestos del modelo
• Características estadísticas:
– Linealidad.
– Homocedasticidad: las varianzas de Y para cada
valor de X son todas iguales.
– Ausencia de autocorrelación: las variables Y son
independientes entre sí (problema en estudios
longitudinales).
– Normalidad.

8
3.1. Supuestos del modelo
• Características como modelo descriptivo:

– El modelo ha de estar correctamente especificado:


• No se excluyen variables independientes relevantes.
• No se incluyen variables independientes irrelevantes.

– La variable independiente ha de haber sido


medida sin error.

9
4. ESTIMACIÓN DE PARÁMETROS
• α y β.
• Mediante mínimos cuadrados.
• En puntuaciones directas:
^
Y  a  bX
SY
b  rXY a  Y bX
SX

10
4. ESTIMACIÓN DE PARÁMETROS
• En puntuaciones diferenciales o centradas:
^
y  bx
El valor de la b coincide con su valor en la ecuación de
regresión en puntuaciones directas.

• En puntuaciones estandarizadas:

^
Z y  rxy Z x

11
4. ESTIMACIÓN DE PARÁMETROS:
EJEMPLO
Con los datos del ejemplo anterior, calcular la
ecuación de regresión en puntuaciones
directas, centradas y estandarizadas.

12
4. ESTIMACIÓN DE PARÁMETROS:
EJEMPLO
Ecuación de regresión en puntuaciones directas:

SY 5,103
b  rXY  0,839 *  0,745
SX 5,745

a  Y  b X  10,4  0,745 *11  2,205

^ ^
Y  a  bX  Y  2,205  0,745 X

13
4. ESTIMACIÓN DE PARÁMETROS:
EJEMPLO
Ecuación de regresión en puntuaciones centradas:

^ ^
y  bx  y  0,745 x

Ecuación de regresión en puntuaciones estandarizadas:

^ ^
Z y  rxy Z x  Z y  0,839Z x

14
5. INTERPRETACIÓN DEL MODELO DE
REGRESIÓN
En el modelo de regresión lineal
^
Y  a  bX Y  a  bX  e

distinguimos los siguientes elementos:


• e  error de estimación o puntuaciones
residuales: parte aleatoria; aquello no
explicado por el modelo.

15
5. INTERPRETACIÓN DEL MODELO DE
REGRESIÓN
^
• Y  puntuación estimada: valor promedio
previsto para todos los sujetos que han
obtenido en la variable X un valor de Xi.
• b  pendiente de la recta: cambio en Y por
cada unidad de cambio en X.
• a  ordenada en el origen: valor medio de Y
cuando X=0.

16
5. INTERPRETACIÓN DEL MODELO DE
REGRESIÓN: EJEMPLO
Supongamos que tenemos la ecuación de regresión:
^
Y  600  300 X
Donde X es el número de años de experiencia profesional, e Y es el
sueldo mensual.

1. Interpreta a y b.

2. Una persona con 3 años de experiencia laboral, ¿qué sueldo


mensual tendrá? Interpreta el resultado.

3. Si una persona con 3 años de experiencia laboral tiene un sueldo


mensual de 1700 €, ¿cuál será su error asociado? Interpreta el
resultado.

17
5. INTERPRETACIÓN DEL MODELO DE
REGRESIÓN: EJEMPLO
1. Interpreta a y b.
• b=300  cambio en Y por cada unidad de
cambio en X. Por cada año de experiencia
laboral, el sueldo mensual aumenta 300 €.

• a=600  valor medio de Y cuando X=0.


Sueldo medio de aquellas personas sin
experiencia laboral.

18
5. INTERPRETACIÓN DEL MODELO DE
REGRESIÓN: EJEMPLO
2. Una persona con 3 años de experiencia laboral,
¿qué sueldo mensual tendrá? Interpreta el
resultado.
^
X  3  Y  600  300 * 3  1500
^
Y  1500 valor promedio previsto para todos
los sujetos que han obtenido en la variable X un
valor de Xi. Las personas con 3 años de
experiencia tienen un sueldo promedio de 1500 €
19
5. INTERPRETACIÓN DEL MODELO DE
REGRESIÓN: EJEMPLO
3. Si una persona con 3 años de experiencia laboral
tiene un sueldo mensual de 1700 €, ¿cuál será su
error asociado? Interpreta el resultado.
^
e  Y  Y  1700  1500  200
El modelo estimó un sueldo de 1500 € para una
persona con 3 años de experiencia laboral. Si esta
persona concreta tiene un sueldo de 1700 €, esta
diferencia de 200 € es el error; aquello que el
modelo no explica.
20
6. COMPONENTES DE VARIACIÓN

21
6. COMPONENTES DE VARIACIÓN

 Y  Y    (Y  Y )   (Y  Y )
N N ^ N ^
2 2 2

i 1 i 1 i 1

Suma de cuadrados total = suma de cuadrados


explicada + suma de cuadrados no explicada

Variación total = variación explicada +


variación no explicada
22
6. COMPONENTES DE VARIACIÓN:
EJEMPLO
Determinar los componentes de variación de los
datos del primer ejemplo.

 Y  Y    (Y  Y )   (Y  Y )
N N ^ N ^
2 2 2

i 1 i 1 i 1

23
6. COMPONENTES DE VARIACIÓN:
EJEMPLO
• Cálculo de la suma de cuadrados total:

 Y  Y 
N
2
 (1  10,4) 2  (6  10,4) 2  (8  10,4) 2
i 1

 (10  10,4) 2  (12  10,4) 2  (10  10,4) 2  (12  10,4) 2


 (13  10,4) 2  (10  10,4) 2  (22  10,4) 2  260,4

24
6. COMPONENTES DE VARIACIÓN:
EJEMPLO
•Cálculo de la suma de cuadrados explicada:
^ ^
Y 1  2,205  0,745 * 2  3,695 Y 6  2,205  0,745 *12  11,145
^ ^
Y 2  2,205  0,745 * 4  5,185 Y 7  2,205  0,745 *14  12,635
^ ^
Y 3  2,205  0,745 * 6  6,675 Y 8  2,205  0,745 *16  14,125
^ ^
Y 4  2,205  0,745 * 8  8,165 Y 9  2,205  0,745 *18  15,615
^ ^
Y 5  2,205  0,745 *10  9,655 Y 10  2,205  0,745 * 20  17,105
N ^
 (Y
i 1
 Y ) 2
 (3,695  10, 4) 2
 (5,185  10, 4) 2
 ( 6,675  10, 4) 2
 (8,165  10, 4) 2

 (9,655  10,4) 2  (11,145  10,4) 2  (12,635  10,4) 2  (14,125  10,4) 2  (15,615  10,4) 2
 (17,105  10,4) 2  183,158 25
6. COMPONENTES DE VARIACIÓN:
EJEMPLO
• Cálculo de la suma de cuadrados no explicada:

N ^
 (Y
i 1
 Y ) 2
 (1  3,695) 2
 ( 6  5,185) 2
 (8  6,675) 2

(10  8,165) 2  (12  9,655) 2  (10  11,145) 2  (12  12,635) 2


 (13  14,125) 2  (10  15,615) 2  (22  17,105) 2  77,018

26
6. COMPONENTES DE VARIACIÓN:
EJEMPLO
Comprobación:

SCtotal = SCexplicada+SCresidual
 Y  Y    (Y  Y )   (Y  Y )
N N ^ N ^
2 2 2

i 1 i 1 i 1

260,4  183,158  77.018

27
7. BONDAD DE AJUSTE
2
^ 
SCexp  
   X  X 
2
Y Y b 2
 R 
2

 Y  Y 
R r
2 2
 
 
2

 Y Y
XY 2
SCt

b 2 S X2
R  2
2

SY

- Coincide con el coeficiente de determinación.


-La proporción de variabilidad no explicada
= 1-R2
28
7. BONDAD DE AJUSTE

29
7. BONDAD DE AJUSTE: EJEMPLO
Calcular la bondad de ajuste (con las tres
fórmulas propuestas) y la proporción de
variabilidad no explicada.

30
7. BONDAD DE AJUSTE: EJEMPLO
2
 
^

SCexp   Y  Y 
 183,158
R r
2 2
    0,704
XY
SCt  Y Y  2
 260,4

 X  X 
2 2
b 0,556 * 330
R 
2
  0,704
 Y  Y 
2
260,4

2 2 2 2
b S 0,745 * 5, 745 0,556 * 33,005
R  2 
2 X
2
  0,704
SY 5,103 26,041

1  R 2  1  0,8392  0,296
31
8. VALIDACIÓN DEL MODELO
Fuentes de Sumas de
gl Varianza F
variación cuadrados
2
Regresión o ^  SCexp
  
2
Y  Y k S 2
 R XY
explicada exp
k
2
S exp
 k
2
S res 1  R XY
2

Residual o SCres
N  k 1
2
  N-k-1 S 
^ 2
no explicada 
 Y  Y 
 N  k 1
res

 Y  Y 
2 SCt
Total N-1 S  2

N 1
t

32
8. VALIDACIÓN DEL MODELO
– F  F( ,k , N  k 1)  Se rechaza la Hipótesis nula.
Las variables están relacionadas. El modelo es
válido.

– F  F( ,k , N  k 1)  Se acepta la Hipótesis nula.


Las variables no están relacionadas. El modelo no
es válido.

(k = número de variables independientes)

33
8. VALIDACIÓN DEL MODELO
• Otras posibles fórmulas de F:
– Con puntuaciones directas:


2
b X  2  X  
2

 N 
 
F k
 Y
2

2  X  
2

Y  N  b   X  N 
2 2

 
N  k 1

34
8. VALIDACIÓN DEL MODELO
En términos de varianza: En términos de R2:

2 2 2
b NS X R
F k F k
NSY2  b 2 NS X2 1 R2
N  k 1 N  k 1

35
8. VALIDACIÓN DEL MODELO:
EJEMPLO
Con los datos anteriores, calcula la F (usando las
4 fórmulas propuestas) y concluye sobre la
validez del modelo.

36
8. VALIDACIÓN DEL MODELO
Fuentes de Sumas de
gl Varianza F
variación cuadrados

Regresión o
explicada
183,158 1 183,158

19,025  19
Residual o
no explicada
77,018 8 9,627

Total
(aprox.)
260,176 9 28,908

37
8. VALIDACIÓN DEL MODELO:
EJEMPLO

F( ,k , N  k 1)  F( 0.05,1,8)  5,318


F  F( ,k , N k 1)  19,025  5,318

Conclusión: Se rechaza la Hipótesis nula. Las


variables X e Y están relacionadas. El modelo
es válido.
38
8. VALIDACIÓN DEL MODELO:
EJEMPLO
Otras fórmulas:


2
b X  2
 X  
2
 110 2

 N  0,745 2

 1540  
   10 
F k  1
 Y 2

2  X 2

 
104 2


 
110 2


Y  N  b   X  N 
2
2 2 1342 0 ,745  1540
10  10 
 
10  1  1
N  k 1
 18,967  19

39
8. VALIDACIÓN DEL MODELO:
EJEMPLO
b 2 NS X2 0,7452 *10 * 5,7452
F k  1  18,974  19
NSY  b NS X 10 * 5,103  0,745 *10 * 5,745
2 2 2 2 2 2

N  k 1 10  1  1

R2 0,839 2
F k  1  19,027  19
1 R 2
1  0,839 2

N  k  1 10  1  1

40
9. SIGNIFICACIÓN DE LOS
PARÁMETROS DE LA REGRESIÓN
• Estudio de b (en relación con la variable
independiente).
• En regresión lineal simple, prueba de
significación equivalente a F y a la significación
de rXY
• Más interesante en regresión lineal múltiple,
donde la F global podría ser significativa y
algún parámetro de la ecuación no.

41
9. SIGNIFICACIÓN DE LOS
PARÁMETROS DE LA REGRESIÓN
Hipótesis:

H0: β = 0 H1: β = 0

42
9. SIGNIFICACIÓN DE LOS
PARÁMETROS DE LA REGRESIÓN

b
t
2
S res
 X  X 
2

43
9. SIGNIFICACIÓN DE LOS
PARÁMETROS DE LA REGRESIÓN
– t  t( , N  2 )  Se rechaza la Hipótesis nula. El
modelo es válido. La pendiente es
estadísticamente distinta de 0. Existe, por tanto,
relación entre las variables.

– t  t( , N  2 )  Se acepta la Hipótesis nula. El


modelo no es válido. La pendiente es
estadísticamente igual a 0. No existe, por tanto,
relación entre las variables.

44
9. SIGNIFICACIÓN DE LOS
PARÁMETROS DE LA REGRESIÓN:
EJEMPLO

Con los datos anteriores, determinar la


significación del parámetro b.

45
9. SIGNIFICACIÓN DE LOS
PARÁMETROS DE LA REGRESIÓN:
EJEMPLO
b 0,745
t   4,382
2
S res 9,627
 X  X 
2
330

t( , N  2)  t( 0.05,10 2)  t( 0.05,8)  2,306

t  t( , N 2)  4,382  2,306

Conclusión: se rechaza la hipótesis nula. El modelo es


válido. La pendiente es estadísticamente distinta de 0.
Existe, por tanto, relación entre las variables. 46
10. PREDICCIÓN
• Un valor concreto: ¿Qué valor de Y obtendrá
una persona con X = 4?
^
Y  2,205  0,745 X

^
Y 0 2,205  0,745 * 4  2,205  2,98  5,185

47
10. PREDICCIÓN
• Dando un intervalo:

^
Y 0  t , N k 1 2 
 1
S res 1  
 
2 
X0  X 
 N
 
 X X 
2 

48
10. PREDICCIÓN: EJEMPLO
¿En qué intervalo se encontrará la puntuación
en Y de la persona que obtuvo X = 4?

49
10. PREDICCIÓN: EJEMPLO

^
Y0  t , N  k 1 2 
 1
S res 1  

X0  X 
2 


 N
  X 
 X
2 

 1 4  11 
2
5,185  2,306 9,6271   

 10 330 
5,185  7,993

^
 2,808  Y0  13,178
50
10. PREDICCIÓN: EJEMPLO

Conclusión: existe una probabilidad de 0,95 de


que una persona que tenga un valor de X = 4,
obtenga una puntuación en Y entre -2,808 y
13,178.

51
10. PREDICCIÓN: LIMITACIÓN
• No extrapolar los valores más allá de los datos
de observación. ¿Y si fuera una relación
cuadrática?

52