Ilovepdf Merged

El modelo de regresión
lineal simple
Modelo clásico de regresión lineal
Fernando Gonzales Fernández

Modelo de regresión lineal simple
Y  b1  b 2 X
b1
X1 X2 X3 X4 X
Suponga que la variable Y es una función lineal de otra variable X, con parámetros desconocidos b1 y b2
que deseamos estimar.
1
Y  b1  b 2 X
b1
X1 X2 X3 X4 X
Además tenemos una muestra de 4 observaciones con valores X .
2
Y  b1  b 2 X
Q4
Q3
Q2
b1 Q1
X1 X2 X3 X4 X
Si la relación fuera exactamente 1. Las observaciones se encontrarían en una línea recta y podríamos
fácilmente obtener estimaciones exactas para b1 y b2.
3
Y P4
Y  b1  b 2 X
P1 Q4
Q3
Q2
b1 Q1 P3
P2
X1 X2 X3 X4 X
En la practica, muchas relaciones económicas no son exactas y los valores reales de Y son diferentes a los
valores correspondientes de la recta.
4
Y P4
Y  b1  b 2 X
P1 Q4
Q3
Q2
b1 Q1 P3
P2
X1 X2 X3 X4 X
Para tener en cuenta esas divergencias, re escribimos el modelo como Y = b1 + b2X + u, donde u es un
termino de perturbación ( o incertidumbre).
5
Y P4
Y  b1  b 2 X
Q4
u1 P1 Q3
Q2
b1 Q1 P3
P2
b1  b 2 X 1
X1 X2 X3 X4 X
Por lo tanto cada valor de Y tiene un componente no aleatorio. (b1 + b2X) y un componente aleatorio (u)
La primera observación se ha descompuesto en sus dos componentes.
6
Y P4
P1
P3
P2
X1 X2 X3 X4 X
Pero, en la practica, solo podemos ver los puntos P.
7
Y P4
Yˆ  bˆ1  bˆ2 X
P1
P3
P2
b̂1
X1 X2 X3 X4 X
Obviamente, podemos usar los puntos P para dibujar una línea que es una aproximación a la línea Y = b1
+ b2X. Si dibujamos esa línea Ŷ  bˆ1  bˆ2 X , b̂1 es una estimación de b1 y b̂ 2es una estimación de b2.
8
Y (valor actual)
Y Ŷ (valor estimado) P4
Ŷ  bˆ1  bˆ2 X
R3 R4
R2
P1
R1 P3
P2
b̂1
X1 X2 X3 X4 X
Esta línea es llamada “modelo estimado” y los valores de Y sombrero son llamados los valores estimados
de Y. Eso se da por alrededor del punto R.
9
Y (valor actual)
Y Ŷ(valor estimado) P4
Y  Yˆ  e (residuo)
e4
Ŷ  bˆ1  bˆ2 X
R3 R4
R2
e1 P1 e3
e2
R1 P3
P2
b̂1
X1 X2 X3 X4 X
Las discrepancias entre el valor actual y el valor estimados se conoce como los residuales o residuos.
10
Y (valor actual)
Ŷ  bˆ1  bˆ2 X
R3 R4 Y  b1  b 2 X
R2
P1
b1 R1 P3
P2
b̂1
X1 X2 X3 X4 X
Observe que los valores de los residuos no son los mismos que los valores del termino de perturbación. El
diagrama muestra la verdadera relación desconocida, así como la línea ajustada.
11
Y (valor actual)
Ŷ  bˆ1  bˆ2 X
Y  b1  b 2 X
P1 Q4
Q3
Q2
b1 Q1 P3
P2
b̂1
X1 X2 X3 X4 X
El término de perturbación en cada observación es responsable de la divergencia entre el componente no

aleatoria de la verdadera relación y la observación real.
12
Y (valor actual)
Ŷ  bˆ1  bˆ2 X
R3 R4 Y  b1  b 2 X
R2
P1
b1 R1 P3
P2
b̂1
X1 X2 X3 X4 X
Los residuos son las discrepancias entre el valor actual y el valor estimado
13
Y (valor actual)
Ŷ  bˆ1  bˆ2 X
R3 R4 Y  b1  b 2 X
R2
P1
b1 R1 P3
P2
b̂1
X1 X2 X3 X4 X
Si el ajuste es bueno, los residuos y los valores del término de perturbación será similares, pero los
mismos deben mantenerse separados conceptualmente.
14
Y (valor actual)
u4 Ŷ  bˆ1  bˆ2 X
Y  b1  b 2 X
Q4
b1 b1  b 2 X 4
b̂1
X1 X2 X3 X4 X
Ambas líneas se usaran en nuestro análisis. Cada una permite una descomposición del valor de Y. La
descomposición puede ser ilustrada en la cuarta observación
15
Y (valor actual)
u4 Ŷ  bˆ1  bˆ2 X
Y  b1  b 2 X
Q4
b1 b1  b 2 X 4
b̂1
X1 X2 X3 X4 X
Usando la relación teórica, Y puede ser descompuesta en sus componentes no estocásticos b1 + b2X y en
su componente estocástico u.
16
Y (valor actual)
u4 Ŷ  bˆ1  bˆ2 X
Y  b1  b 2 X
Q4
b1 b1  b 2 X 4
b̂1
X1 X2 X3 X4 X
Esta es una descomposición teórica, porque no conocemos los valores de b1 o b2, o los valores del
termino de error. Usaremos esto en nuestro análisis de las propiedades de los coeficientes de regresión.
17
Y (valor actual)
e4 Ŷ  bˆ1  bˆ2 X
R4 Y  b1  b 2 X
b1 Yˆ4  bˆ1  bˆ2 X 4

b̂1
X1 X2 X3 X4 X
La otra descomposición hace referencia a la línea de regresión ajustada. En cada observación los valores
actuales de Y es igual al valor ajustado mas el valor residual. Esta es una descomposición operativa que
usaremos para fines prácticos.
18
Criterio Mínimos Cuadrados
Ordinarios
Métodos de estimación
Criterio Mínimos Cuadrados:
Minimizar SRC (suma residual de cuadrados), donde

n
SRC   ei2  e12  ...  en2
i 1
Para empezar, vamos a dibujar la línea de regresión ajustada con el fin de minimizar la suma residual de
cuadrados SRC. Esto se denomina como el criterio Mínimos cuadrados.
19
Criterio Minimos cuadrados
Minimizar SRC (suma residual de cuadrados), donde

n
SRC   ei2  e12  ...  en2
i 1
¿Porqué no minimizamos?
n
e
i 1
i  e1  ...  en
¿Porque la suma de los residuos al cuadrado? ¿Porque no solo minimizamos la suma de los residuos?
20
Y P4
Y P1
P3
P2
X1 X2 X3 X4 X
Puedes conseguir al parecer un ajuste perfecto dibujando una línea horizontal que pasa por el valor
promedio de Y. La suma de los residuos sería cero.
21
Y P4
Y P1
P3
P2
X1 X2 X3 X4 X
Podemos prevenir residuos negativos cancelando los residuos positivos. Y una forma de hacer esto es
usando los residuos al cuadrado.
22
Y P4
Y P1
P3
P2
X1 X2 X3 X4 X
Por supuesto hay otras formas de lidiar con el problema. El criterio mínimos cuadrados tiene como
atractivo que los estimadores derivados con el, tienen propiedades deseables, siempre y cuando se
cumplan ciertas condiciones.
23
Y P4
Y P1
P3
P2
X1 X2 X3 X4 X
En la siguiente dispositiva, veremos como se utiliza el criterio mínimos cuadrados para calcular los
coeficientes de la recta ajustada.
24
El modelo de regresión
lineal
Derivación MCO
Clases virtuales semestre 1-2020

DERIVACIÓN DE LOS COEFICIENTES DEL MRL
Modelo real Y  1   2 X  u
Y
6
Y3
5 Y2
4
3 Y1
2
0
0 1 2 3 X
Esta secuencia muestra como son derivados los coeficientes de regresión de un modelo de
regresión simple, usando el criterio Mínimos Cuadrados Ordinarios (M.C.O. )
1
Y
6
Y3
5 Y2
4
3 Y1
2
0
0 1 2 3 X
Empezamos con un ejemplo numérico con tres observaciones: (1,3), (2,5), and (3,6).
2
Línea estimada Yˆ  ˆ  ˆ X
1 2
Y
Yˆ3  ˆ1  3ˆ2
6
Y3
5 Y2
4 Yˆ1  ˆ1  ˆ2 Yˆ2  ˆ1  2 ˆ2
3 Y1
2 ̂ 2
̂1
1
0
0 1 2 3 X
Escribimos la regresión ajustada como Yˆ  ˆ1  ˆ2 X , determinaremos los valores de ̂1y ̂ 2
que minimizan SRC la suma residual de cuadrados.
3
1 2
Y
Yˆ3  ˆ1  3ˆ2
6
Y3
5 Y2
4 Yˆ1  ˆ1  ˆ2 Yˆ2  ˆ1  2 ˆ2
3 Y1 e1  Y1  Yˆ1  3  ˆ1  ˆ2

2 ̂ 2 e  Y  Yˆ  5  ˆ  2 ˆ
̂1 2 2 2 1 2
1 e3  Y3  Yˆ3  6  ˆ1  3ˆ2

0
0 1 2 3 X
Teniendo en cuenta nuestra elección de ̂1y ̂ 2 , los residuos son:
3
ANÁLISIS DE REGRESIÓN SIMPLE
SRC  e12  e22  e32  (3  ˆ1  ˆ2 ) 2  (5  ˆ1  2 ˆ2 ) 2  (6  ˆ1  3ˆ2 ) 2
 9  ˆ 2  ˆ 2  6 ˆ  6 ˆ  2 ˆ ˆ
1 2 1 2 1 2
25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

36  ˆ12  9 ˆ22  12 ˆ1  36 ˆ2  6 ˆ1ˆ2
 70  3ˆ 2  14 ˆ 2  28ˆ  62 ˆ  12 ˆ ˆ
1 2 1 2 1 2
e1  Y1  Yˆ1  3  ˆ1  ˆ2

e  Y  Yˆ  5  ˆ  2 ˆ
2 2 2 1 2
e3  Y3  Yˆ3  6  ˆ1  3ˆ2
La suma residual de cuadrados se muestra arriba.
5
SRC  e12  e22  e32  (3  ˆ1  ˆ2 ) 2  (5  ˆ1  2 ˆ2 ) 2  (6  ˆ1  3ˆ2 ) 2
 9  ˆ 2  ˆ 2  6 ˆ  6 ˆ  2 ˆ ˆ
1 2 1 2 1 2
25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

36  ˆ12  9 ˆ22  12 ˆ1  36 ˆ2  6 ˆ1ˆ2
 70  3ˆ 2  14 ˆ 2  28ˆ  62 ˆ  12 ˆ ˆ
1 2 1 2 1 2
e1  Y1  Yˆ1  3  ˆ1  ˆ2

e  Y  Yˆ  5  ˆ  2 ˆ
2 2 2 1 2
e3  Y3  Yˆ3  6  ˆ1  3ˆ2
Los cuadrados han sido expandidos.
5
SRC  e12  e22  e32  (3  ˆ1  ˆ2 ) 2  (5  ˆ1  2 ˆ2 ) 2  (6  ˆ1  3ˆ2 ) 2
 9  ˆ 2  ˆ 2  6 ˆ  6 ˆ  2 ˆ ˆ
1 2 1 2 1 2
25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

36  ˆ12  9 ˆ22  12 ˆ1  36 ˆ2  6 ˆ1ˆ2
 70  3ˆ 2  14 ˆ 2  28ˆ  62 ˆ  12 ˆ ˆ
1 2 1 2 1 2
Los términos han sido sumados.
5
SRC  e12  e22  e32  (3  ˆ1  ˆ2 ) 2  (5  ˆ1  2 ˆ2 ) 2  (6  ˆ1  3ˆ2 ) 2
 9  ˆ 2  ˆ 2  6 ˆ  6 ˆ  2 ˆ ˆ
1 2 1 2 1 2
25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

36  ˆ12  9 ˆ22  12 ˆ1  36 ˆ2  6 ˆ1ˆ2
 70  3ˆ 2  14 ˆ 2  28ˆ  62 ˆ  12 ˆ ˆ
1 2 1 2 1 2
SRC
 0  6 ˆ1  12 ˆ2  28  0
ˆ1
SRC
 0  12 ˆ1  28ˆ2  62  0
ˆ2
Para un mínimo, la derivada parcial de SRC con respecto a ̂1 y ̂ 2 es igualada a cero,
Veamos la primera condición de orden.
8
SRC  e12  e22  e32  (3  ˆ1  ˆ2 ) 2  (5  ˆ1  2 ˆ2 ) 2  (6  ˆ1  3ˆ2 ) 2
 9  ˆ 2  ˆ 2  6 ˆ  6 ˆ  2 ˆ ˆ
1 2 1 2 1 2
25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

36  ˆ12  9 ˆ22  12 ˆ1  36 ˆ2  6 ˆ1ˆ2
 70  3ˆ 2  14 ˆ 2  28ˆ  62 ˆ  12 ˆ ˆ
1 2 1 2 1 2
SRC
 0  6 ˆ1  12 ˆ2  28  0
ˆ1
SRC
 0  12 ˆ1  28ˆ2  62  0
ˆ2
La condición de primer orden nos muestra dos ecuaciones con dos incógnitas.
8
SRC  e12  e22  e32  (3  ˆ1  ˆ2 ) 2  (5  ˆ1  2 ˆ2 ) 2  (6  ˆ1  3ˆ2 ) 2
 9  ˆ 2  ˆ 2  6 ˆ  6 ˆ  2 ˆ ˆ
1 2 1 2 1 2
25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

36  ˆ12  9 ˆ22  12 ˆ1  36 ˆ2  6 ˆ1ˆ2
 70  3ˆ 2  14 ˆ 2  28ˆ  62 ˆ  12 ˆ ˆ
1 2 1 2 1 2
SRC
 0  6 ˆ1  12 ˆ2  28  0
ˆ1
SRC
 0  12 ˆ1  28ˆ2  62  0
ˆ2
 ˆ1  1.67, ˆ2  1.50

Resolviendo la SRC es minimizada cuando b1 yb2 son iguales a 1.67 y 1.50,
respectivamente.
8
1 2
Y
Yˆ3  ˆ1  3ˆ2
6
Y3
5 Y2
4 Yˆ1  ˆ1  ˆ2 Yˆ2  ˆ1  2 ˆ2
3 Y1
2 ̂ 2
̂1
1
0
0 1 2 3 X
Observamos nuevamente el diagrama de dispersión
3
Línea estimada Yˆ  1.67  1.50 X
Y
Yˆ3  6.17
6
Y3
5 Y2
4 Yˆ2  4.67
Yˆ1  3.17
3 Y1
2 1.50
1.67
1
0
0 1 2 3 X
Se observa además la línea estimada y los valores estimados de Y .
12
Y Modelo real: Y  1   2 X  u
Yn
Y1
X1 Xn X
Ahora hacemos lo mismo para el caso general con n observaciones.
13
Línea estimada Yˆ  ˆ1  ˆ2 X
Yˆn  ˆ1  ˆ2 X n
Yn
Y1
Yˆ1  ˆ1  ˆ2 X 1

̂1 ̂ 2
X1 Xn X
Teniendo en cuenta nuestra elección para ̂1 y ̂ 2 , obtenemos una línea estimada.
14
Yˆn  ˆ1  ˆ2 X n
Yn
Y1
e1 e1  Y1  Yˆ1  Y1  ˆ1  ˆ2 X 1
Yˆ1  ˆ1  ˆ2 X 1 .....
̂1 ̂ 2 en  Yn  Yˆn  Yn  ˆ1  ˆ2 X n
X1 Xn X
Definimos el residuo para la primera observación.
14
Yˆn  ˆ1  ˆ2 X n

en
Yn
Y1
e1 e1  Y1  Yˆ1  Y1  ˆ1  ˆ2 X 1
Yˆ1  ˆ1  ˆ2 X 1 .....
̂1 ̂ 2 en  Yn  Yˆn  Yn  ˆ1  ˆ2 X n
X1 Xn X
De manera similar definimos los residuos para las observaciones restantes. La última es
resaltada.
14
SRC  e12  e22  e32  (3  ˆ1  ˆ2 ) 2  (5  ˆ1  2 ˆ2 ) 2  (6  ˆ1  3ˆ2 ) 2
 9  ˆ 2  ˆ 2  6 ˆ  6 ˆ  2 ˆ ˆ
1 2 1 2 1 2
25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

36  ˆ12  9 ˆ22  12 ˆ1  36 ˆ2  6 ˆ1ˆ2
 70  3ˆ 2  14 ˆ 2  28ˆ  62 ˆ  12 ˆ ˆ
1 2 1 2 1 2
SRC  e12  ...  en2  (Y1  ˆ1  ˆ2 X 1 ) 2  ...  (Yn  ˆ1  ˆ2 X n ) 2
 Y12  ˆ12  ˆ22 X 12  2 ˆ1Y1  2 ˆ2 X 1Y1  2 ˆ1ˆ2 X 1
 ...
 Yn2  ˆ12  ˆ22 X n2  2 ˆ1Yn  2 ˆ2 X nYn  2 ˆ1ˆ2 X n
 1 2 
Y 2  nˆ 2  ˆ 2 X 2  2 ˆ Y  2 ˆ
i i 1  i 2 
X Y  2 ˆ ˆ
i i X 1 2  i
SRC, la suma residual de los cuadrados, es definida para el caso general. Los datos en el
ejemplo numérico se muestran para su comparación.
17
SRC  e12  e22  e32  (3  ˆ1  ˆ2 ) 2  (5  ˆ1  2 ˆ2 ) 2  (6  ˆ1  3ˆ2 ) 2
 9  ˆ 2  ˆ 2  6 ˆ  6 ˆ  2 ˆ ˆ
1 2 1 2 1 2
25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

36  ˆ12  9 ˆ22  12 ˆ1  36 ˆ2  6 ˆ1ˆ2
 70  3ˆ 2  14 ˆ 2  28ˆ  62 ˆ  12 ˆ ˆ
1 2 1 2 1 2
 Y12  ˆ12  ˆ22 X 12  2 ˆ1Y1  2 ˆ2 X 1Y1  2 ˆ1ˆ2 X 1
 ...
 1 2  i 1 
Y 2  nˆ 2  ˆ 2 X 2  2 ˆ Y  2 ˆ
i i 2 
X Y  2 ˆ ˆ
i i 1X 2  i
Los cuadrados son expandidos.
17
SRC  e12  e22  e32  (3  ˆ1  ˆ2 ) 2  (5  ˆ1  2 ˆ2 ) 2  (6  ˆ1  3ˆ2 ) 2
 9  ˆ 2  ˆ 2  6 ˆ  6 ˆ  2 ˆ ˆ
1 2 1 2 1 2
25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

36  ˆ12  9 ˆ22  12 ˆ1  36 ˆ2  6 ˆ1ˆ2
 70  3ˆ 2  14 ˆ 2  28ˆ  62 ˆ  12 ˆ ˆ
1 2 1 2 1 2
 Y12  ˆ12  ˆ22 X 12  2 ˆ1Y1  2 ˆ2 X 1Y1  2 ˆ1ˆ2 X 1
 ...
 1 2  i 1 
Y 2  nˆ 2  ˆ 2 X 2  2 ˆ Y  2 ˆ
i i 2 
X Y  2 ˆ ˆ
i i 1X 2  i
Términos iguales son sumados.
17
SRC  70  3ˆ12  14 ˆ22  28ˆ1  62 ˆ2  12 ˆ1ˆ2

SRC
 0  6 ˆ1  12 ˆ2  28  0
ˆ1
 ˆ1  1.67, ˆ2  1.50
SRC
 0  12 ˆ1  28ˆ2  62  0
ˆ2
SRC   Yi 2  nˆ12  ˆ22  X i2  2ˆ1  Yi  2ˆ2  X iYi  2ˆ1ˆ2  X i
Observe que en esta ecuación las observaciones en X y Y son justo los datos que
determinan los coeficientes en la expresión SRC.
20
SRC  70  3ˆ12  14 ˆ22  28ˆ1  62 ˆ2  12 ˆ1ˆ2

SRC
 0  6 ˆ1  12 ˆ2  28  0
ˆ1
 ˆ1  1.67, ˆ2  1.50
SRC
 0  12 ˆ1  28ˆ2  62  0
ˆ2
̂ ̂
Las variables electas en las expresiones son 1 y 2. Esto puede parecer un tanto extraño
porque en sus cursos de cálculo elemental estas betas son usualmente constantes y X y Y
son variables.
20
SRC  70  3ˆ12  14 ˆ22  28ˆ1  62 ˆ2  12 ˆ1ˆ2

SRC
 0  6 ˆ1  12 ˆ2  28  0
ˆ1
 ˆ1  1.67, ˆ2  1.50
SRC
 0  12 ˆ1  28ˆ2  62  0
ˆ2
Sin embargo, ante cualquier duda, comparemos que se hace en caso general, con lo que se
hizo en el ejemplo numérico
20
SRC  70  3ˆ12  14 ˆ22  28ˆ1  62 ˆ2  12 ˆ1ˆ2

SRC
 0  6 ˆ1  12 ˆ2  28  0
ˆ1
 ˆ1  1.67, ˆ2  1.50
SRC
 0  12 ˆ1  28ˆ2  62  0
ˆ2

SRC
 0  2nˆ1  2 Yi  2 ˆ2  X i  0
ˆ1
La primera derivada respecto a b1.
20
SRC  70  3ˆ12  14 ˆ22  28ˆ1  62 ˆ2  12 ˆ1ˆ2

SRC
 0  6 ˆ1  12 ˆ2  28  0
ˆ1
 ˆ1  1.67, ˆ2  1.50
SRC
 0  12 ˆ1  28ˆ2  62  0
ˆ2

SRC
 0  2nˆ1  2 Yi  2 ˆ2  X i  0
ˆ1
nˆ1   Yi ˆ2  X i ˆ1  Y  ˆ2 X
Bajo algunas manipulaciones obtenemos una expresión ordenada para ̂1.
20
SRC  70  3ˆ12  14 ˆ22  28ˆ1  62 ˆ2  12 ˆ1ˆ2

SRC
 0  6 ˆ1  12 ˆ2  28  0
ˆ1
 ˆ1  1.67, ˆ2  1.50
SRC
 0  12 ˆ1  28ˆ2  62  0
ˆ2

SRC
 0  2nˆ1  2 Yi  2 ˆ2  X i  0
ˆ1
nˆ1   Yi ˆ2  X i ˆ1  Y  ˆ2 X
SRC
 0  2 ˆ2  X i2  2 X iYi  2 ˆ1  X i  0
ˆ2
La primera derivada respecto a ̂ 2 .
20
SRC
 0  2 ˆ2  X i2  2 X iYi  2 ˆ1  X i  0
ˆ2
ˆ2  X i2   X iYi  ˆ1  X i  0

SRC
 0  2nˆ1  2 Yi  2 ˆ2  X i  0
ˆ1
nˆ1   Yi ˆ2  X i ˆ1  Y  ˆ2 X
SRC
 0  2 ˆ2  X i2  2 X iYi  2 ˆ1  X i  0
ˆ2
Dividiendo ambas entre 2.
20
SRC
 0  2 ˆ2  X i2  2 X iYi  2 ˆ1  X i  0
ˆ2
ˆ2  X i2   X iYi  ˆ1  X i  0

SRC
 0  2nˆ1  2 Yi  2 ˆ2  X i  0
ˆ1
nˆ1   Yi ˆ2  X i ˆ1  Y  ˆ2 X
SRC
 0  2 ˆ2  X i2  2 X iYi  2 ˆ1  X i  0
ˆ2
Sustituimos en b1 usando la expresión obtenida para ello y obteniendo la ecuación que
contiene solo a b2 .
20
SRC
 0  2 ˆ2  X i2  2 X iYi  2 ˆ1  X i  0
ˆ2
ˆ2  X i2   X iYi  ˆ1  X i  0
ˆ2  X i2   X iYi  (Y  ˆ2 X ) X i  0

SRC
 0  2nˆ1  2 Yi  2 ˆ2  X i  0
ˆ1
nˆ1   Yi ˆ2  X i ˆ1  Y  ˆ2 X
SRC
 0  2 ˆ2  X i2  2 X iYi  2 ˆ1  X i  0
ˆ2
Sustituimos en b1 usando la expresión obtenida para ello y obteniendo la ecuación que
contiene solo a b2 .
20
SRC
 0  2 ˆ2  X i2  2 X iYi  2 ˆ1  X i  0
ˆ2
ˆ2  X i2   X iYi  ˆ1  X i  0
ˆ2  X i2   X iYi  (Y  ˆ2 X ) X i  0

ˆ2  X i2   X iYi  (Y  ˆ2 X )nX  0
X
 X i
X i  nX
La definición de la media muestral ha sido usada .
20
SRC
 0  2 ˆ2  X i2  2 X iYi  2 ˆ1  X i  0
ˆ2
ˆ2  X i2   X iYi  ˆ1  X i  0
ˆ2  X i2   X iYi  (Y  ˆ2 X ) X i  0

ˆ2  X i2   X iYi  (Y  ˆ2 X )nX  0
ˆ2  X i2   X iYi  nXY  nˆ2 X 2  0
Los últimos dos términos se han desglosado
20
SRC
 0  2 ˆ2  X i2  2 X iYi  2 ˆ1  X i  0
ˆ2
ˆ2  X i2   X iYi  ˆ1  X i  0
ˆ2  X i2   X iYi  (Y  ˆ2 X ) X i  0

ˆ2  X i2   X iYi  (Y  ˆ2 X )nX  0
ˆ2  X i2   X iYi  nXY  nˆ2 X 2  0
ˆ2   X i2  nX 2    X iYi  nXY
Los términos que no involucran a b2 han sido transferidos a la parte derecha.
20
ˆ2   X i2  nX 2    X iYi  nXY
ˆ2   X i2  nX 2    X iYi  nXY
Para crear espacio, la ecuación se traslada a la parte superior del slide
20
ˆ2   X i2  nX 2    X iYi  nXY
ˆ2   X Y  nXY
i i
 X  nX
i
2 2
Obtenemos una expresión para b2.
20
ˆ2   X i2  nX 2    X iYi  nXY
ˆ2   X Y  nXY
i i
 X  nXi
2 2
ˆ2 
  X  X Y  Y 
i i
 X  X 
2
i
En la práctica, solemos usar una expresión alternativa. Una buena práctica es demostrar
que ambas son equivalentes.
20
ˆ2   X i2  nX 2    X iYi  nXY
ˆ2   X Y  nXY
i i
 X  nXi
2 2
ˆ2 
  X  X Y  Y 
i i
 X  X 
2
i
 X i  X Yi  Y    X iYi   X iY   XYi   XY

  X iYi  Y  X i  X  Yi  nXY
  X iYi  Y nX   X nY   nXY
  X iYi  nXY
Expandiendo el numerador obtenemos los términos.
20
ˆ2   X i2  nX 2    X iYi  nXY
ˆ2   X Y  nXY
i i
 X  nX i
2 2
ˆ2 
  X  X Y  Y 
i i
 X  X 
2
i

  X iYi  Y  X i  X  Yi  nXY
  X iYi  Y nX   X nY   nXY
En el segundo término el valor medio de Y es un factor común. En el tercer factor el valor
medio de X es el factor común. El último termino es el mismo para todo i.
20
ˆ2   X i2  nX 2    X iYi  nXY
ˆ2   X Y  nXY
i i
X
 X i
 X  nXi
2 2
n
ˆ2 
  X  X Y  Y 
X
i i
 nX
 X  X 
2
i
i

  X iYi  Y  X i  X  Yi  nXY
  X iYi  Y nX   X nY   nXY
Usamos la definición de la media que simplifica la expresión.
20
ˆ2   X i2  nX 2    X iYi  nXY
ˆ2   X Y  nXY
i i
 X  nXi
2 2
ˆ2 
  X  X Y  Y 
i i
 X  X 
2
i

  X iYi  Y  X i  X  Yi  nXY
  X iYi  Y nX   X nY   nXY
Los numeradores de las dos expresiones son las mismas.
20
ˆ2   X i2  nX 2    X iYi  nXY
ˆ2   X Y  nXY
i i
 X  nX
i
2 2
ˆ2 
  X  X Y  Y 
i i
 X  X 
2
i
 X i  X Yi  Y    X iYi  nXY

 iX  X 2
  i
X 2
 nX 2
El denominador es matemáticamente un caso especial de el numerador, reemplazamos Y

por X. Entonces ambas expresiones son equivalentes.
20
Yˆn  ˆ1  ˆ2 X n
Yn
Y1
Yˆ1  ˆ1  ˆ2 X 1

̂1 ̂ 2
X1 Xn X
El diagrama de dispersión es mostrado nuevamente. Resumimos lo hecho. Con la hipótesis

que el verdadero modelo es el mostrado, obtenemos datos y trazamos una línea estimada.
14
Yˆn  ˆ1  ˆ2 X n
Yn
Y1
ˆ1  Y  ˆ2 X
Yˆ1  ˆ1  ˆ2 X 1 ˆ2 

  X  X Y  Y 
i i
̂1 ̂ 2  X  X 
2
i
X1 Xn X
Elegimos los parámetros de la línea ajustada con el fin de minimizar la suma de los
cuadrados de los residuos. Como resultado, derivamos las expresiones para b1 y b2.
14
DERIVANDO COEFICIENTES DE REGRESIÓN LINEAL
Modelo real: Y  2 X  u
Yˆ  ˆ2 X
Linea
estimada:
Debemos incluir una intersección en la especificación de a regresión. Ocasionalmente, sin

embargo, puede generarse una regresión sin el intercepto. En el caso de un modelo de
regresión simple el modelo real y el estimado se muestran.
41
Yˆ  ˆ2 X
Linea
estimada:
ei  Yi  Yî  Yi  ˆ2 X i
Vamos a obtener una expresión para b2 usando los principios de la regresión mínimos
cuadrados. El residuo en la observación es ei = Yi – b2Xi.
41
Yˆ  ˆ2 X
Linea
estimada:
 
n n n n
SRC   Yi  ˆ2 X i   Yi  2 ˆ2  X iYi  ˆ  i
2
2 2 2
2 X
i 1 i 1 i 1 i 1
Con esto se obtiene la expresión para la suma residual de los cuadrados.
41
Yˆ  ˆ2 X
Linea
estimada:
 
n n n n
2
2 2 2
2 X
i 1 i 1 i 1 i 1
RSS n n
 2 ˆ2  X i  2 X iYi  0
2
ˆ2 i 1 i 1
Diferenciando con respecto a b2, obtenemos la condición de primer orden para un mínimo
41
Yˆ  ˆ2 X
Linea
estimada:
 
n n n n
2
2 2 2
2 X
i 1 i 1 i 1 i 1
RSS n n
 2 ˆ2  X i  2 X iYi  0
2
ˆ2 i 1 i 1
n
XY i i
ˆ2  i 1
n
 i
X 2
i 1
Por lo tanto, obtenemos el estimador MCO de b2 para este modelo
41
Yˆ  ˆ2 X
Linea
estimada:
 
n n n n
2
2 2 2
2 X
i 1 i 1 i 1 i 1
RSS n n
 2 ˆ2  X i  2 X iYi  0
2
ˆ2 i 1 i 1
n
XY i i
ˆ2  i 1  2 SRC n
n
ˆ
 2  X i 0
2
 i  2
2 2
X i 1
i 1
La segunda derivada es positiva, confirmando que hemos encontrado un mínimo.
41
Propiedades de la recta de
regresión
Propiedades de la recta ajustada, recta estimada, recta predicha.
1. Pasa a través de las medias muestrales de Y y X.
Yi  ˆ 1  ˆ 2 X i  ei Y
Yî  ˆ 1  ˆ 2 X i
e
i 0
  FRM

 Y   ˆ
i 1  ˆ 2  X i   ei 
  
   

 
 
 Yi nˆ 1 ˆ 2  X i 0
Y
  
    
n n n n  

Y  ˆ 1  ˆ 2 X
X
X
2. El valor promedio del Y estimado= Ŷ , es igual al
valor medio del Y real
Yî  ˆ 1  ˆ 2 X i Definición de la recta estimada
 
Yî  Y  ˆ 2 X  ˆ 2 X i Aplicando la definición de b1
Yî  Y  ˆ 2  X i  X  Usando factor común
 Yˆ  nY  ˆ  X
i 2 i  nˆ 2 X Multiplicando, Aplicando
sumas y sus propiedades
 Yˆ i

nY ˆ 2  X i nˆ 2 X
  Dividiendo por n
n n n n
Yˆ  Y  ˆ 2 X  ˆ 2 X Usando la definición de media
Yˆ  Y
3. El valor de la media de los residuos es cero
e 0
ei  Yi  Yî  Yi  b1  b2 X i ˆ 
Yî  1
ˆ X
2 i
ei  Yi  Yî  Yi  ˆ 1  ˆ 2 X i Sustituimos el valor

ajustado
 e   Y  nˆ  ˆ  X
i i 1 2 i
Aplicamos sumatoria
e 0 1 1 ˆ  ˆ 1
  
Dividiendo por n ambos
e  i Y   i 1X 2 i términos de la ecuación,
1 n n n
e   ei
n ˆ ˆ
e  Y  1  2 X
Si sustituimos b , la
expresión se es cero.
1
e i 0
 Y  (Y  ˆ 2 X )  ˆ 2 X  0
Los residuos en cualquier observación vienen dados por la diferencia entre los valores
reales y los ajustados de Y para cada observación.
Usando el desvio de y
Yi  ˆ 1  ˆ 2 X i  ei Planteamos la FRM
Y  ˆ  ˆ X
1 2
Y la ecuación encontrada en la propiedad 1
Yi  Y  ˆ 1  ˆ 1  ˆ 2 X i  ˆ 2 X  ei Restamos ambas
Y  Y  ˆ  X  X   e
i 2 i i
Despejamos y factorizamos
yi  ˆ 2 xi  ei Y se define el desvió de Y
yi  yî  ei El desvió de Y en términos del desvio de

Y estimada y sus residuos
yî  ˆ 2 xi Y se define el desvió de Y estimada o

predicha
4. Los residuos no están correlacionados con el valor
predicho de Yi, lo cual puede ser verificado utilizando
la forma de desviación.
yî  ˆ 2 xi
Usando la definición de la recta estimada
en desvíos
 yˆ e
i i  ˆ 2  xi ei Multiplicando por los residuos y aplicando
sumas
 yˆ e  ˆ  x  y  ˆ x 
i i 2 i i 2 i
Usando la definición de los residuos
 yˆ e  ˆ  x y  ˆ  x 2 2 Usando la definición de b2
i i 2 i i 2 i
x y
ˆ 2  i i
x
 yˆ e  ˆ 22  xi2  ˆ 22  xi2
2
i
i i Reemplazado b2
ˆ  x   x y
2
2
i i i
 yˆ e i i 0 Multiplicando por b2
ˆ 2 2  xi2  ˆ 2  xi yi
5. Los residuos no están correlacionados con Xi
Demostrar:…
e x
i i 0 ó e X
i i 0
Estadística aplicada a la Economía
Tema 1. Modelos e regresión Lineal Simple
Semana 3. Supuestos y fundamentos del método MCO

Fundamentos de la estimación MCO
En esta presentación se realizaran algunos supuestos o

fundamentos sobre las variables X y u. Ya que ambas
son determinantes para hallar Y
Y  1   2 X  u
Si no se plantean estos supuestos sobre ambas

variables, no podrá realizarse ningún tipo de inferencia
sobre Y, y lo que es peor sobre los parámetros:
1 y  2
Supuestos Gaussianos
1. El modelo de regresión es lineal en los parámetros

2. Los valores de X son fijos o independientes de la
perturbación
3. El valor medio de ui es igual a cero. E  u / X   0 i i
4. Homocedasticidad o igual varianza de ui .

5. No autocorrelación entre las µ
6. El número de observaciones debe ser mayor que el
de parámetros
7. Variabilidad en los valores de X.
Estos supuestos a primera vista pueden provocar mareos, pero en realidad son bastante
intuitivos.
1. EL modelo de regresión el lineal en los parámetros
Yi  1   2 X i  ui
Yi     X i  ui
1 1
1 2
Yi  1   2 X i  ui
2 5
e x2
Y i
1/2
 1   2 X i  ui
1  2 ui
Yi  A X i vi
Los parámetros beta, en los cinco casos tienen coeficiente 1, por lo tanto, se trata de
modelos de regresión lineales en los parámetros, es decir, se cumple el supuesto 1.
¿Porqué el quinto caso es considerado lineal?
1. EL modelo de regresión el lineal en los parámetros
Yi  1   2 X i  ui
Yi     X i  ui
1 1
1 2
Yi  1   2 X i  ui
2 5
e x2
Y i
1/2
 1   2 X i  ui
1  2 ui
Yi  A X i vi
El incumplimiento a este supuesto genera modelos no lineales, que no pueden estimarse
mediante MCO, ante ellos surgen métodos de estimación no lineales.
2. Los valores de X son independientes de la perturbación estocástica
Los valores que toma la variable X son NO

estocásticos, es decir no dependen del azar
Yi  1   2 X i  ui
Determinística
No aleatoria Aleatoria
Si X fuera aleatoria, entonces Y dependería de

dos variables aleatorias. Y la Estimación MCO
seria sesgada.
Es decir, la covarianza entre el regresor X y la
perturbación estocástica es 0 cov  , X  0  i j 
El incumplimiento a este supuesto provoca un problema denominado endogeneidad
3. El valor medio de la perturbación es igual a “0”
• Los factores que no están incluidos en el modelo, no

afectan sistemáticamente el valor esperado de Y.
• Los valores positivos de u se cancelan con los valores
negativos, de tal manera que su efecto promedio sobre
Y es cero.
E  ui / X i   0
E  ui   0
El incumplimiento a este supuesto provoca un problema denominado sesgo de

especificación
4. Homocedasticidad.
Independientemente de lo que ocurra con X, la varianza de la

perturbación estocástica es constante
V i    2  E i  E i X i 
2
• y dado el supuesto 3 es equivalente a

 
E i2   2
var i / X i    2
El incumplimiento a este supuesto provoca un problema denominado heterocedasticidad

Homocedasticidad.
Homocedasticidad (el supuesto) implica igual varianza, no importa en que valor de X me

encuentre, la dispersión será la misma para Y
Heterocedasticidad
Heterocedasticidad es la diferente variabilidad de una variable observada respecto a otra,

por ejemplo el efecto que tienen los ingresos (X) sobre el consumo de un bien (Y) tiene
mucha variabilidad, ya que famlias pudientes tienen en promedio una mayor variabilidad
que familias que están en la línea de pobreza
5. No autocorrelación covi ,  j   0
- No existe tendencia de que los errores asociados a una

observación estén relacionados a los errores de otra
observación (no autocorrelación espacial).
- Si en un momento de tiempo o en un individuo de la
muestra se genera un error positivo, esto no nos da
información alguna sobre si el próximo error será
positivo o negativo.
- Los errores no tienen un patrón de comportamiento
sistemático.
- Si µt y µt-1 están correlacionados, Yt no sólo depende
de Xt, sino también de µt-1
La Autocorrelación es un problema característico de las series de tiempo, aunque también

existe en alguno casos de datos de corte transversal, denominándose Autocorrelación
espacial
No existe autocorrelación
Una manera de observar la no existencia de este problema es analizando la relación entre

las perturbaciones contemporáneas (del presente) vs las perturbaciones rezagadas (con un
lag o rezago de 1 o más periodos). Si esta relación no existe, entonces no se presenta
autocorrelación
Existe autocorrelación
En el gráfico de la izquierda se nota una relación positiva entre ambas variables, y en el

gráfico de la derecha una relación inversa o negativa. En los dos casos existe
autocorrelación, (ya sea positiva o negativa)
6. El número de observaciones (n) debe ser mayor que el número de
parámetros a estimar (k)
• Es decir, para hacer una regresión se debe contar con una buena
muestra
• Un tamaño de muestra grande dependerá del tamaño de la
población y de la variabilidad. Pero mucho depende del
investigador.
• Tener pocos datos provoca regresiones con muchos sesgos.
Antes de realizar una regresión deben observarse detenidamente los datos.

7. Naturaleza de las variables X
• El modelo de MCO requiere que exista una dispersión

entre las X para poder calcular los valores de los
coeficientes, pues si no, éstos serían una cantidad
infinita. (no iguales todos)
Si todos los valores de X son

idénticos, entonces Xi  X
Por lo cual x2

i 0
Y entonces, ˆ2  x y i i

x 2
i
Una variable varía. Una constante es fija, no varía. Entonces la variable X debe de ser
variable antes de hacer una regresión.
Estadística aplicada a la Economía
Tema 1. Modelos e regresión Lineal Simple
Semana 3. El teorema Gauss Markov
Propiedades del estimador MCO

Propiedades de los estimadores MCO
¿Cómo sabemos que la estimación que hemos encontrado se

acerca a aquella estimación desconocida a la que queremos
llegar?
Es decir, ¿los estimadores encontrados se acercan o no a los
parámetros poblacionales?
¿ ˆ   ?
En términos estadísticos se quiere que la función de densidad

de estimador se concentre tanto como sea posible alrededor
del parámetro.
Dados los supuestos del modelo clásico der egresión lineal, los valores estimados de
mínimos cuadrados poseen algunas propiedades ideales u óptimas. Estas propiedades
están contenidas en el teorema de Gauss-Markov.
El teorema mas importante de los estimadores MCO dice:
• El estimador ̂ es Lineal
• El estimador ̂ es Insesgado.
• El estimador ̂ es tiene varianza mínima entre todos los
estimadores lineales insesgados, por lo tanto es un estimador eficiente.
• En otras palabras son el Mejor (por eficientes) Estimador Lineal (por

la propiedad número 1) Insesgado (por la propiedad número 2)
• Entonces el estimador MCO es un estimador MELI
Enunciado del teorema Gauss-Markov

Dados los supuestos del modelo clásico de regresión lineal, los estimadores del método
Mínimos Cuadrado Ordinarios (MCO) dentro la clase de estimadores lineales e insesgados,
tienen varianza mínima, es decir, son los Mejores Estimadores Lineales Insesgados (MELI)
El teorema mas importante de los estimadores MCO dice:
• El estimador ̂ es Lineal
• El estimador ̂ es Insesgado.
• El estimador ̂ es tiene varianza mínima entre todos los
estimadores lineales insesgados, por lo tanto es un estimador eficiente.
• En otras palabras son el Mejor (por eficientes) Estimador Lineal (por

la propiedad número 1) Insesgado (por la propiedad número 2)
• Entonces el estimador MCO es un estimador MELI
Esto indica que todos los estimadores son buenos, ya que todos son lineales y todos
también son insesgados, pero solo uno de ese universo de estimadores es eficiente, y es
eficiente porque tiene la menor varianza.
La presentación termina aquí, el resto es el anexo de l presente tema.
𝛽መ − 𝛿 β
𝛽መ + 𝛿
Demostración de la Linealidad
Es constante

 wi  0
 yi xi xi 
2  wi xi  1
ˆ
A partir de    wi 
 xi 2
 xi  1

ˆ   yi wi yi  Yi  Y  wi 
2
  x 2
 Yi  Y w
i
ˆ
 i
ˆ   Yiw Y  w
i i pero w i 0
ˆ   Yiw i desarrolla mos 

ˆ  Y1w1  Y2 w2  Y3 w3  ........  Yn wn
 ˆ  f lineal Yi  ˆ es función lineal de Yi
Con esta demostración observamos que el estimador beta 2 es lineal respecto a Y.
Insesgabilidad
ˆ 
y x i i
x 2
i
* ˆ  y w
i i Yi    Xi  Ui
r
v
ˆ     Xi  Uiw i
ˆ    w  Xiw  Uiw
0 1
i i i
* *ˆ    Uiw i Aplicamos E
E ˆ   E   Uiw  i
 E Ui  0 Por Hipoteis

E    E     w E Ui 
ˆ 0
 E     Por ser Corriente

i
 
E ˆ   ˆ es un estimador insesgado de 
En esta segunda demostración observamos que el estimador b2 es insesgado respecto al

parámetro b2. El operador E() se conoce como la esperanza matemática. Entoces, la última
línea también se lee: La esperanza matemática del estimador, es igual a su parámetro.
Determinación de la varianza
ˆ     wiUi
ˆ     wi u i Aplicar E y elevar al cuadrado

ˆ 
E     E  wiUi 
2
Desarrolla r 
 2ˆ  E w1U1  w2U 2  .....  wnU n 2 Resolver Polinomios Cuadrados
 2ˆ  E w12U12  w22U 22  .....  2w1U1w2U 2  .....  2wn 1U n 1wnU n 
 2ˆ  E  w12U12  2 wi w jU iU j 
   w E U 
2 u
 2 wi w j E U iU j  Por Hipótesis
2
2 2 0
ˆ i i
i j
 u2
 2ˆ  Varianza del Estimador ˆ
 xi2
Ahora que se ha determinado la varianza MCO. Solo resta saber si la misma es mas grande
o mas pequeña que la varianza de cualquier otro estimador.
Suponemos Otro Estimador Beta (con dos sombreros ^^)
ˆ
ˆ  y x i i
Pero ci  wi  di
x 2
i Conocido


w d  0 i i
ˆ

c  0
c U
i
ˆ    
c X 1
i i
 i i


d X  0 i i
ˆ
ˆ    c U i i
 c U 
2
 ˆ
ˆ  2
E    E i i
 
 2
ˆ  E  c U  2 c c U U 
2
i i
2
i j i j
ˆ
  c E U 

 2 c c E U U 0
2
 2
ˆ
2
i i
2 u
i j i J
ˆ
i j
 2
ˆ
ˆ
  u2  w i  di 2

1
 2
  u2   u2 d i2

ˆ
ˆ xi2  
 k
 2
ˆ
ˆ ˆˆ
 2ˆˆ   2ˆ K   es mas eficiente que 

Ya que la varianza del beta con dos sombreros (cualquier

otro estimador) es mas grande que la beta con un sombrero
(el estimador MCO) se concluye que la varianza del
estimador MCO es mas pequeña, por lo tanto:
Enunciado del Teorema Gauss – Markov
Dados los supuestos del modelo clásico de regresión lineal,

los estimadores del método Mínimos Cuadrado Ordinarios
(MCO) dentro la clase de estimadores lineales e insesgados,
tienen varianza mínima, es decir, son los Mejores
Estimadores Lineales Insesgados (MELI)
Econometría (y simulaciones)
Tema 1. Modelos de regresión Lineal Simple
Semana 3. Bondad del ajuste

El coeficiente de determinación
El coeficiente de correlación

Bondad del ajuste
Suma Total de Cuadrados, STC
 Y i Y   
2
 ˆ  2
ˆ 
Yi  ei  Y     Yi  Y  ei 
2


  Yi  Y    ei2  2  Yî  Y ei 
ˆ 2

  Yi  Y    ei2  2 Yî ei  2Y  ei
ˆ 2
Ahora discutiremos la bondad del ajuste. Una medida de la variación de Y es la suma de las
desviaciones cuadradas alrededor de la media de la muestra, a menudo descrito como la suma
total de cuadrados, STC.
22
Bondad del ajuste
ei  Yi  Yî  Yi  Yî  ei
 Y i Y   
2
ˆ  2
ˆ 
Yi  ei  Y     Yi  Y  ei 
2


  Yi  Y    ei2  2  Yî  Y ei 
ˆ 2

  Yi  Y    ei2  2 Yî ei  2Y  ei
ˆ 2
Vamos a descomponer STC utilizando el hecho de que el valor verdadero de Y en cualquier

observación es igual a la suma de su valor ajustado y el residual.
23
Bondad del ajuste
 Y i Y   
2
ˆ  2
ˆ 
Yi  ei  Y     Yi  Y  ei 
2

  Yi  Y    ei2  2  Yî  Y ei 
ˆ 2

  Yi  Y    ei2  2 Yî ei  2Y  ei
ˆ 2
Sustituimos para Yi.
24
Bondad del ajuste
 Y i Y   
2
ˆ  2
ˆ 
Yi  ei  Y     Yi  Y  ei 
2


  Yi  Y    ei2  2  Yî  Y ei 
ˆ 2

  Yi  Y    ei2  2 Yî ei  2Y  ei
ˆ 2
Podemos volver a organizar la expresión como se muestra.
25
Bondad del ajuste
 Y i Y   
2
ˆ  2
ˆ 
Yi  ei  Y     Yi  Y  ei 
2


  Yi  Y    ei2  2  Yî  Y ei 
ˆ 2

  Yi  Y    ei2  2 Yî ei  2Y  ei
ˆ 2
Expandimos los términos al cuadrado en el lado derecho de la ecuación.
26
Bondad del ajuste
 Y i Y   
2
ˆ  2
ˆ 
Yi  ei  Y     Yi  Y  ei 
2


  Yi  Y    ei2  2  Yî  Y ei 
ˆ 2

  Yi  Y    ei2  2 Yî ei  2Y  ei
ˆ 2
Expandimos el tercer término del lado derecho de la ecuación.
27
Bondad del ajuste
 Y i Y   
2
ˆ  2
ˆ 
Yi  ei  Y     Yi  Y  ei 
2


  Yi  Y    ei2  2  Yî  Y ei 
ˆ 2

  Yi  Y    ei2  2 Yî ei  2Y  ei
ˆ 2
 Yˆ e
i i 0 e i 0
Los dos últimos términos son ambos cero, dado las propiedades de la recta de regresión
vistas anteriormente.
28
Bondad del ajuste
 Y i Y   
2
ˆ  2
ˆ 
Yi  ei  Y     Yi  Y  ei 
2

  Yi  Y    ei2  2  Yî  Y ei 
ˆ 2

  Yi  Y    ei2  2 Yî ei  2Y  ei
ˆ 2
STC  SEC  SRC
 Yi  Y   SEC, suma explicada de cuadrados

ˆ 2
Así, hemos demostrado que STC, la suma total de los cuadrados de Y se puede
descomponer en SEC, la suma “explicada” de cuadrados, y SRC, la suma residual
('inexplicable') de las cuadrados
29
Bondad del ajuste
 Y i Y   
2
ˆ  2
ˆ 
Yi  ei  Y     Yi  Y  ei 
2


  Yi  Y    ei2  2  Yî  Y ei 
ˆ 2

  Yi  Y    ei2  2 Yî ei  2Y  ei
ˆ 2
STC  SEC  SRC
 Yi  Y   SEC, suma explicada de cuadrados

ˆ 2
Las palabras explicada e inexplicable se ponen entre comillas porque la explicación puede
ser en realidad falsa. Y realmente podría depender de alguna otra variable Z, y X podría
actuar como un proxy para Z. Sería más seguro utilizar la expresión aparentemente
explicada en lugar de la explicada 29
Bondad del ajuste
 Y Y    Yi  Y    ei2
ˆ STC  SEC  SRC
2 2
i
R 
2 SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y )2
El principal criterio de bondad del ajuste, formalmente descrito como el coeficiente de

determinación, mejor conocido como R2, se define como la relación de la SEC a la STC, es
decir, la proporción de la varianza de Y explicada por la ecuación de regresión.
31
Bondad del ajuste
 Y Y    Yi  Y    ei2
2 2
i
R 
2 SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y )2
Obviamente nos gustaría encontrar la línea de regresión para hacer que la bondad de ajuste
sea lo más alta posible. ¿Esto condiciona el uso de los mínimos cuadrados principales para
determinar b1 y b2?
32
Bondad del ajuste
 Y Y    Yi  Y    ei2
2 2
i
R 
2 SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y )2
R2 
STC  SRC
 1
 ei
2
STC  (Yi  Y )2
Afortunadamente, no hay problema. Para ver esto, vuelva a escribir la expresión para R2 en
términos de SRC como se muestra.
33
Bondad del ajuste
 Y Y    Yi  Y    ei2
2 2
i
R 
2 SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y )2
R2 
STC  SRC
 1
 ei
2
STC  (Yi  Y )2
Los coeficientes de regresión MCO se eligen de tal manera que se minimice la suma de los
cuadrados de los residuos. Por lo tanto se deduce automáticamente que maximizan R2.
34
Bondad del ajuste
R 
2 SEC

 i
(Yˆ  Y ) 2

 i
ˆ
y 2
STC  (Yi  Y ) 2
 i
y 2
R2 
 i
ˆ
y 2

ˆ22  xi2
 ˆ22
 i
x 2
y 2
i  i
y 2
 i
y 2
 S x2 
R  ˆ  2 
2 2
S 
2
 y
  xy
2

2 i i
R
x y 2
i
2
i
El R2 puede expresarse también de acuerdo a estas formulas. En la primera la vemos como

la razón entre lo estimado y lo observado. En la segunda como la razón entre las
independientes y la dependiente, medida por el coeficiente de regresión (b2). En la tercera
tiene que ver con las varianzas de Y e X. Y en la ultima respecto a la relación a la
34
correlación
Bondad del ajuste
Los diagramas muestran en a) Y no depende de X, R2=0; b) X afecta poco a Y R2=0,10; d) X

afecta a Y, R2=0,50; e) X afecta mucho a Y, R2= 0,90 f) X afecta en su totalidad a Y,
prácticamente son iguales R2=1
34
Bondad del ajuste
 Yi  Y Yî  Y   Yi  Y 

ˆ 2
rY ,Yˆ  
 Yi  Y   Yî  Y   Yi  Y  Yî  Y 
 
2 2 2 2
 Yi  Y 
ˆ  Yˆ  Y 
2 2
  i
 R2
 Y Y   Y  Y 
2 2
i i
Otro criterio natural de bondad de ajuste es la correlación entre los valores reales y
estimados de Y. Vamos a demostrar que esto es maximizado usando los principio de
mínimos cuadrados para determinar los coeficientes de regresión
35
Bondad del ajuste
 Yi  Y Yî  Y   Yi  Y 

ˆ 2
rY ,Yˆ  
 Yi  Y   Yî  Y   Yi  Y  Yî  Y 
 
2 2 2 2
 Yˆ  Y 2
  ˆ
Yi  Y 2
  
 Y  Y  Yˆ 2 Y   Yˆ  e2  Y R
Y i Y i Yî  Y 
i 2
 i Y  Yi 
 i i
   Yˆ  Y   e Yˆ  Y 
i i i
  Yi  Y    eiYî  Y  ei
ˆ 2
  Yi  Y 
ˆ 2
Vamos a comenzar con el numerador y el sustituto del valor real de Y en el primer factor.
36
Bondad del ajuste
 Yi  Y Yî  Y   Yi  Y 

ˆ 2
rY ,Yˆ  
 Yi  Y   Yî  Y   Yi  Y  Yî  Y 
 
2 2 2 2
 Yˆ  Y 2
  ˆ
Yi  Y 2
  
 Y  Y  Yˆ 2 Y   Yˆ  e2  Y R
Y i Y i Yî  Y 
i 2
 i Y  Yi 
 i i
   Yˆ  Y   e Yˆ  Y 
i i i
  Yi  Y    eiYî  Y  ei
ˆ 2
  Yi  Y 
ˆ 2
Nos reorganizamos un poco.
37
Bondad del ajuste
 Yi  Y Yî  Y   Yi  Y 

ˆ 2
rY ,Yˆ  
 Yi  Y   Yî  Y   Yi  Y  Yî  Y 
 
2 2 2 2
 Yˆ  Y 2
  ˆ
Yi  Y 2
  
 Y  Y  Yˆ 2 Y   Yˆ  e2  Y R
Y i Y i Yî  Y 
i 2
 i Y  Yi 
 i i
   Yˆ  Y   e Yˆ  Y 
i i i
  Yi  Y    eiYî  Y  ei
ˆ 2
  Yi  Y 
ˆ 2
 Yˆ e
i i 0 e i 0
Expandimos la expresión Los dos últimos términos son ambos cero (por las propiedades
de la recta de regresión)
38
Bondad del ajuste
 Yi  Y Yî  Y   Yi  Y 

ˆ 2
rY ,Yˆ  
 Yi  Y   Yî  Y   Yi  Y  Yî  Y 
 
2 2 2 2
 Yˆ  Y 2
  ˆ
Yi  Y 2
  
 Y  Y  Yˆ 2 Y   Yˆ  e2  Y R
Y i Y i Yî  Y 
i 2
 i Y  Yi 
 i i
   Yˆ  Y   e Yˆ  Y 
i i i
  Yi  Y    eiYî  Y  ei
ˆ 2
  Yi  Y 
ˆ 2
Por lo tanto el numerador se simplifica a la suma de las desviaciones al cuadrado de los

valores ajustados.
39
Bondad del ajuste
 Yi  Y Yî  Y   Yi  Y 

ˆ 2
rY ,Yˆ  
 Yi  Y   Yî  Y   Yi  Y  Yî  Y 
 
2 2 2 2
 Yi  Y 
ˆ  Yˆ  Y 
2 2
  i
 R2
 Y Y   Y  Y 
2 2
i i
Tenemos la misma expresión en el denominador, bajo una raíz cuadrada. Cancelando, nos
quedamos con la raíz cuadrada en el numerador.
40
Bondad del ajuste
 Yi  Y Yî  Y   Yi  Y 

ˆ 2
rY ,Yˆ  
 Yi  Y   Yî  Y   Yi  Y  Yî  Y 
 
2 2 2 2
 Yi  Y 
ˆ  Yˆ  Y 
2 2
  i
 R2
 Y Y   Y  Y 
2 2
i i
Así, el coeficiente de correlación es la raíz cuadrada de R2. De ello se desprende que se

maximiza el uso de los principio de mínimos cuadrados para determinar los coeficientes de
regresión.
41
Bondad del ajuste
n X iYi    X   Y 
r
 n X 2   X 2   n Y 2   Y 2 
  i  i    i  i 
Una forma diferente de presentar el coeficiente de correlación es la siguiente, a menudo es

muy usada pues no necesita presentar el desvio de las variables, sino lo hace de forma
directa.
Bondad del ajuste
En los diagramas de dispersión se observa como se comporta el coeficiente de correlación

Semana 4. Pruebas de hipótesis

Intervalos de confianza
P-valor

PROBANDO UNA HIPÓTESIS EN RELACIÓN A UN COEFICIENTE DE
REGRESIÓN
Recordemos de Estadística 2:
Una variable aleatoria X se distribuye con una

media poblacional desconocida m y varianza s2.
La hipótesis nula es H0: m = m0,
y la hipótesis alterna H1: m ≠ m0.
Para probar H0, calculamos la media muestral X
y su error estandar (s.e.), y contrastamos la
prueba estadística t  X  m0
s.e.
Rechazamos H0 si t  t crit para un nivel de
significancia elegido.
Vamos a considerar una prueba de hipótesis acerca de los coeficientes de regresión

encontrados, respecto al parámetro poblacional desconocido. Para ello usamos las
herramientas de pruebas de hipótesis que conociste en Estadística II
5
REGRESIÓN
Modelo de Regresión
Si que la verdadera relación es Y   1   2 X  u
y que, dada una muestra de datos, hemos
ajustado el modelo Yˆ  ˆ1  ˆ2 X . Las hipótesis
nulas y alternativas son
H 0 :  2   20 , H 1 :  2   20
ˆ2   20
t
Para probar H0, calculamos s.e.b2  .
Rechazamos H0 si t  tcrit Para un nivel de

El estadístico t es la diferencia entre el coeficiente estimado y su valor hipotético, dividido

por el error estándar del coeficiente. Rechazamos la hipótesis nula si el valor absoluto es
mayor que el valor crítico de t, dado el nivel de significación elegido.
6
REGRESIÓN
H 0 :  2   20 , H 1 :  2   20
ˆ2   20
t

Hay una diferencia importante. Al localizar el valor crítico de t, hay que tener en cuenta el
número de grados de libertad. En el caso de la variable aleatoria X, es n - 1, donde n es el
número de observaciones en la muestra.
6
REGRESIÓN
H 0 :  2   20 , H 1 :  2   20
ˆ2   20
t

En el caso del modelo de regresión, el número de grados de libertad es n - k, donde n es el

número de observaciones en la muestra y k es el número de parámetros (coeficientes β).
En el caso del modelo de regresión simple anterior, es n - 2.
6
REGRESIÓN
Prueba t a dos colas
Ejemplo: p = 1 + 2w + u
Hipótesis nula: H0: 2 = 1.0
Hipótesis alterna: H1: 2 ≠ 1.0
Como ilustración, consideraremos un modelo que relaciona los precios con los salarios.
p es la tasa porcentual anual de aumento de los precios
w es la tasa porcentual anual de aumento de los salarios.
9
REGRESIÓN
Comprobaremos la hipótesis de que la tasa de inflación de los precios es igual a la tasa de

inflación de los salarios. La hipótesis nula es por lo tanto H0:  2 = 1.0. (También debemos
probar  1 = 0, pero eso se los dejo de tarea)
9
REGRESIÓN
pˆ  1.21  0.82w
(0.05) (0.10)
Supongamos que el resultado de la regresión es el que se muestra (errores estándar entre

paréntesis). Nuestra estimación real del coeficiente de la pendiente es sólo de 0,82.
Realizaremos el contraste para saber si debemos rechazar la hipótesis nula.
9
REGRESIÓN
pˆ  1.21  0.82w
(0.05) (0.10)
ˆ2   200.82  1.00
t   1.80.
s.e.(b2 ) 0.10
Calculamos el estadístico t restando el valor real hipotético de la estimación muestral y

dividiéndolo por el error estándar. El resultado es de -1,80.
9
REGRESIÓN
pˆ  1.21  0.82w
(0.05) (0.10)
ˆ2   200.82  1.00
t   1.80.
s.e.(b2 ) 0.10
n  20; grados de libertad  18
Hay 20 observaciones en la muestra. Hemos estimado 2 parámetros, así que hay 18 grados
de libertad.
9
REGRESIÓN
pˆ  1.21  0.82w
(0.05) (0.10)
ˆ2   200.82  1.00
t   1.80.
s.e.(b2 ) 0.10
tcrit ,5%  2.101
El valor crítico de t con 18 grados de libertad es 2.101 en el nivel del 5%. El valor absoluto
del estadístico t es menor que esto, por lo que no rechazamos la hipótesis nula.
9
Hipótesis nula: H0 :  2 = 1
Hipótesis alterna: H1 :  2 = 1
Función de
densidad de
probabilidad b2
rechazo H0 No rechazo H0 rechazo H0
2.5% 2.5%
-1,180
- 2,101 1 2,101
3
6
REGRESIÓN
Y  1   2 X  u
En la práctica es inusual tener una idea del valor real de los coeficientes. Muy a menudo el
objetivo del análisis es demostrar que Y está influenciado por X, sin tener ninguna noción
previa específica de los coeficientes reales de la relación.
15
REGRESIÓN
Y  1   2 X  u
H 0 :  2  0; H1 :  2  0
En este caso es habitual definir β2 = 0 como la hipótesis nula. En palabras, la hipótesis nula
es que X no influye en Y. Entonces intentamos demostrar que la hipótesis nula es falsa.
15
REGRESIÓN
Y  1   2 X  u
H 0 :  2  0; H1 :  2  0
ˆ2   20 ˆ2
t 
s.e.( ˆ2 ) s.e.( ˆ2 )
Para la hipótesis nula β2 = 0 , el estadístico t se reduce a la estimación del coeficiente

dividido por su error estándar.
15
REGRESIÓN
Y  1   2 X  u
H 0 :  2  0; H1 :  2  0
ˆ2   20 ˆ2
t 
s.e.( ˆ2 ) s.e.( ˆ2 )
Este coeficiente se denomina comúnmente el estadístico t para el coeficiente. Para realizar

la prueba para un nivel de significación determinado, comparamos el estadístico t
calculado directamente con el valor crítico de t para ese nivel de significación.
15
REGRESIÓN
ˆ1  186,51
ˆ2  1,75
eeˆ1  5,76733
eeˆ  0,10686
2
Volviendo al ejemplo visto en DT1 , recordemos nuevamente sus resultados principales
15
REGRESIÓN
ˆ1  186,51
ˆ2  1,75
eeˆ1  5,76733
eeˆ  0,10686
2
ˆ2   20 ˆ2  1,75

t    16,37
s.e.( ˆ2 ) s.e.( ˆ2 ) 0,10686
Calculamos t para b2. Puedes ver que el estadístico t para el coeficiente de Precio es
enorme. Rechazaríamos la hipótesis nula de el precio no afecta a las ventas en el nivel de
significación del 5% (valor crítico alrededor de 1,98).
15
Función de
densidad de
probabilidad b2
2.5% 2.5%
t= -16,37
- 1,98 0 1,98
3
6
REGRESIÓN
ˆ1  186,51
ˆ2  1,75
eeˆ1  5,76733
eeˆ  0,10686
2
ˆ2   20 ˆ2  1,75

t    16,37
s.e.( ˆ2 ) s.e.( ˆ2 ) 0,10686
Podemos ir mas allá y también rechazamos la hipótesis nula con un nivel de significación
del 1% (valor crítico alrededor de 2,62).
15
Función de
densidad de
probabilidad b2
t= -16,37 0,5% 2.5% 2.5%
- 2,62 - 1,98 0 1,98
3
6
REGRESIÓN
ˆ1  186,51
ˆ2  1,75
eeˆ1  5,76733
eeˆ  0,10686
2
ˆ2   20 ˆ2  1,75

t    16,37
s.e.( ˆ2 ) s.e.( ˆ2 ) 0,10686
Como ejercicio, te dejamos que realices el contraste estadístico para b1
15
REGRESIÓN
ˆ1  186,51
ˆ2  1,75
eeˆ1  5,76733
eeˆ  0,10686
2
ˆ2   20 ˆ2  1,75

t    16,37
s.e.( ˆ2 ) s.e.( ˆ2 ) 0,10686
probabilidad ˆ2  2,55 1030  0
Por su parte, encontramos también la probabilidad de cometer error tipo I (Esto es rechazar
una hipótesis nula verdadera.
15
REGRESIÓN
ˆ1  186,51
ˆ2  1,75
eeˆ1  5,76733
eeˆ  0,10686
2
ˆ2   20 ˆ2  1,75

t    16,37
s.e.( ˆ2 ) s.e.( ˆ2 ) 0,10686
probabilidad ˆ2  2,55 1030  0
Si rechazas la hipótesis nula H0: b = 0, esta es la probabilidad de que estés cometiendo un

error tipo I. Por lo tanto, da el nivel de significación en el que la hipótesis nula sería
simplemente rechazada.
15
REGRESIÓN
ˆ1  186,51
ˆ2  1,75
eeˆ1  5,76733
eeˆ  0,10686
2
ˆ2   20 ˆ2  1,75

t    16,37
s.e.( ˆ2 ) s.e.( ˆ2 ) 0,10686
probabilidad ˆ2  2,55 1030  0
Si p = 0,05, la hipótesis nula podría ser rechazada en el nivel del 5%. Si fuera 0,01, podría
ser rechazada en el nivel del 1%. Si fuera 0,001, podría ser rechazada en el nivel del 0,1%.
Esto es asumiendo que estás usando pruebas de dos colas.
15
REGRESIÓN
ˆ1  186,51
ˆ2  1,75
eeˆ1  5,76733
eeˆ  0,10686
2
ˆ2   20 ˆ2  1,75

t    16,37
s.e.( ˆ2 ) s.e.( ˆ2 ) 0,10686
probabilidad ˆ2  2,55 1030  0
En el presente caso p = 0 a tres decimales para el coeficiente de precio. Esto significa que
podemos rechazar la hipótesis nula H0: b2 = 0 en el nivel de 0,1%, sin tener que referirnos a
la tabla de valores críticos de t.
15
REGRESIÓN
Prueba t a una cola
pˆ  1.21  0.82w
(0.05) (0.10)
ˆ2   200.82  1.00
t   1.80.
s.e.(b2 ) 0.10
tcrit,5%  2.101 prueba a dos colas
Volviendo al modelo de inflación de precios/inflación de salarios, vimos que no podíamos

rechazar la hipótesis nula β2 = 1, incluso en el nivel de significación del 5%. Eso fue usando
una prueba de dos colas.
9
REGRESIÓN
Prueba t a una cola
pˆ  1.21  0.82w
(0.05) (0.10)
ˆ2   200.82  1.00
t   1.80.
s.e.(b2 ) 0.10
Sin embargo, en la práctica, las mejoras en la productividad pueden hacer que la tasa de
inflación de los costos, y por lo tanto la de la inflación de los precios, sea inferior a la de la
inflación de los salarios.
9
REGRESIÓN
Prueba t a una cola
pˆ  1.21  0.82w
(0.05) (0.10)
ˆ2   200.82  1.00
t   1.80.
s.e.(b2 ) 0.10
Ciertamente, las mejoras en la productividad no harán que la inflación de los precios sea
mayor que la inflación de los salarios, por lo que en este caso se justifica descartar  2 > 1.
Nos quedamos con H0:  2 = 1 y H1:  2 < 1.
9
REGRESIÓN
Prueba t a una cola
Hipótesis alterna: H1: 2 < 1.0
pˆ  1.21  0.82w
(0.05) (0.10)
ˆ2   200.82  1.00
t   1.80.
s.e.(b2 ) 0.10
tcrit,5%  1,734 prueba a una cola
Así podemos realizar una prueba unilateral, para la cual el valor crítico de t con 18 grados
de libertad en el nivel de significación del 5% es 1,73. Ahora podemos rechazar la hipótesis
nula y concluir que la inflación de los precios es significativamente más baja que la de los
salarios, en el nivel de significación del 5%. 9
Función de
densidad de
probabilidad b2
2.5% 2.5%
-1,180
- 2,101 1 2,101
3
6
Hipótesis alterna: H1 :  2 < 1
Función de
densidad de
probabilidad b2
5%
-1,180
- 2,101 1
3
6
REGRESIÓN
Prueba t a una cola
pˆ  1.21  0.82w
(0.05) (0.10)
ˆ2   200.82  1.00
t   1.80.
s.e.(b2 ) 0.10
tcrit,5%  1,734 prueba a una cola
Así podemos realizar una prueba unilateral, para la cual el valor crítico de t con 18 grados
de libertad en el nivel de significación del 5% es 1,73. Ahora podemos rechazar la hipótesis
nula y concluir que la inflación de los precios es significativamente más baja que la de los
salarios, en el nivel de significación del 5%. 9
REGRESIÓN
Modelo: Y = 1 + 2X + u
Hipótesis nula: H0: 2 = 0
Hipótesis alterna: H1: 2 ≠ 0
Rechazo H0 si o
Rechazo H0 si o
Rechazo H0 si o
No rechazo H0 si
Ahora consideramos un caso muy común, caso H0:  2 = 0.
34
REGRESIÓN
Modelo: Y = 1 + 2X + u
b2   20 b2   20
 t crit   t crit
s.e.b2  s.e.b2 
Rechazo H0 si o
Rechazo H0 si o
Rechazo H0 si o
No rechazo H0 si
De la discusión inicial en esta sección, vimos que, dado el modelo teórico Y =  1 +  2X + u

un modelo ajustado, el coeficiente de regresión b2 y el valor hipotético de  2 son
incompatibles si cualquiera de las desigualdades mostradas es válida.
34
REGRESIÓN
Modelo: Y = 1 + 2X + u
b2   20 b2   20
s.e.b2  s.e.b2 
Rechazo H0 si o
Rechazo H0 b2   20  s.e.b2   t crit o b2   20  s.e.b2   t crit
Rechazo H0 si o
No rechazo H0 si
Multiplicando por el error estándar de b2las condiciones para rechazar H0 pueden ser
escritas como se muestra.
34
REGRESIÓN
Modelo: Y = 1 + 2X + u
b2   20 b2   20
s.e.b2  s.e.b2 
Rechazo H0 si o
Rechazo H0 b2  s.e.b2   t crit   20 o b2  s.e.b2   t crit   20
No rechazo H0 si
Las desigualdades pueden entonces reordenarse como se muestra.
34
REGRESIÓN
Modelo: Y = 1 + 2X + u
b2   20 b2   20
s.e.b2  s.e.b2 
Rechazo H0 si o
Rechazo H0 b2  s.e.b2   t crit   20 o b2  s.e.b2   t crit   20
No rechazo H0 si b2  s.e.b2   tcrit   2  b2  s.e.b2   tcrit
Podemos entonces obtener el intervalo de confianza para  2, ue es el conjunto de todos los

valores que no serían rechazados, dada la muestra estimada b2. Para hacerlo operativo,
necesitamos seleccionar un nivel de significación y determinar el correspondiente valor
crítico de t. 34
REGRESIÓN
ˆ1  186,51
ˆ2  1,75
eeˆ1  5,76733
eeˆ  0,10686
2
b2  s.e.b2   tcrit   2  b2  s.e.b2   tcrit
Para un ejemplo de la construcción de un intervalo de confianza, volveremos a la función

de ganancias ajustada anteriormente. Construiremos un intervalo de confianza del 95%
para  2.
15
REGRESIÓN
ˆ1  186,51
ˆ2  1,75
eeˆ1  5,76733
eeˆ  0,10686
2
-1,75– 0,10686 x 1.98 ≤  2 ≤ -1,75 + 0,10686 x 1.98
El punto estimado para  2 es -1,75 y su error estandat es de 0,10686.

El valor crítico de t encontrado en tablas al 5% de significancia a dos colas con 120 grados
de libertad es 1,98
15
REGRESIÓN
ˆ1  186,51
ˆ2  1,75
eeˆ1  5,76733
eeˆ  0,10686
2
-1,75– 0,10686 x 1.98 ≤  2 ≤ -1,75 + 0,10686 x 1.98
-1,96≤  2 ≤ -1,54
Por lo tanto, establecemos que el intervalo de confianza es de -1,96 a -1,54. Cuando

revisemos el softwareveremos ligeras variaciones con las salidas de regresión. La
discrepancia en el límite inferior y superior se debe a un error de redondeo en los cálculos
que hemos hecho. 15
Función de
densidad de
probabilidad b2
2.5% 2.5%
–1.96 β -1,54
3
6
Semana 4. Prueba F

PRUEBA F
 (Y  Y ) 2
  (Yˆ  Y ) 2
  e 2
STC  SEC  SRC
En una secuencia anterior se demostró que la suma total de cuadrados podía

descomponerse en la suma de los cuadrados de los valores ajustados (SEC: suma
explicada de cuadrados) y la suma de residual de cuadrados
1
PRUEBA F
 (Y  Y ) 2
  (Yˆ  Y ) 2
  e 2
STC  SEC  SRC

R2 
SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y ) 2
R2, la medida habitual de la bondad de ajuste, se definió entonces como la relación entre la
suma explicada de cuadrados y la suma total de cuadrados.
1
PRUEBA F
 (Y  Y ) 2
  (Yˆ  Y ) 2
  e 2
STC  SEC  SRC

R2 
SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y ) 2
Y  1   2 X  u
La hipótesis nula que vamos a probar es que el modelo no tiene poder explicativo.
1
PRUEBA F
 (Y  Y ) 2
  (Yˆ  Y ) 2
  e 2
STC  SEC  SRC

R2 
SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y ) 2
Y  1   2 X  u H 0 :  2  0, H1 :  2  0
Como X es la única variable explicativa en este momento, la hipótesis nula es que Y no está
determinada por X. Matemáticamente, tenemos H0:  2 = 0
1
PRUEBA F
 (Y  Y ) 2
  (Yˆ  Y ) 2
  e 2
STC  SEC  SRC

R2 
SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y ) 2
Y  1   2 X  u H 0 :  2  0, H1 :  2  0
SEC
(k  1)
SEC /( k  1) R 2
/( k  1)
F (k  1, n  k )   STC 
SRC /( n  k ) SRC (n  k ) (1  R 2 ) /( n  k )
STC
Las hipótesis relativas a la bondad del ajuste se prueban mediante el estadístico F, definido
como se muestra. Donde k es el número de parámetros de la ecuación de regresión, que
actualmente es sólo 2.
1
PRUEBA F
 (Y  Y ) 2
  (Yˆ  Y ) 2
  e 2
STC  SEC  SRC

R2 
SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y ) 2
Y  1   2 X  u H 0 :  2  0, H1 :  2  0
SEC
(k  1)
SEC /( k  1) R 2
/( k  1)
F (k  1, n  k )   STC 
SRC /( n  k ) SRC (n  k ) (1  R 2 ) /( n  k )
STC
n - k es, como en la estadística t, el número de grados de libertad (número de

observaciones menos el número de parámetros estimados). Para el análisis de regresión
simple, es n - 2.
1
PRUEBA F
 (Y  Y ) 2
  (Yˆ  Y ) 2
  e 2
STC  SEC  SRC

R2 
SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y ) 2
Y  1   2 X  u H 0 :  2  0, H1 :  2  0
SEC
(k  1)
SEC /( k  1) R 2
/( k  1)
F (k  1, n  k )   STC 
SRC /( n  k ) SRC (n  k ) (1  R 2 ) /( n  k )
STC
El estadístico F puede escribirse alternativamente en términos de R2. Primero hay que

dividir el numerador y el denominador por la STC
1
PRUEBA F
 (Y  Y ) 2
  (Yˆ  Y ) 2
  e 2
STC  SEC  SRC

R2 
SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y ) 2
Y  1   2 X  u H 0 :  2  0, H1 :  2  0
SEC
(k  1)
SEC /( k  1) R 2
/( k  1)
F (k  1, n  k )   STC 
SRC /( n  k ) SRC (n  k ) (1  R 2 ) /( n  k )
STC
Ahora podemos reescribir el estadístico F como se muestra. El R2 en el numerador viene

directamente de la definición de R2.
1
PRUEBA F
SRC STC  SEC SEC

  1  1 R2
STC STC STC
R2 
SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y ) 2
Y  1   2 X  u H 0 :  2  0, H1 :  2  0
SEC
(k  1)
SEC /( k  1) R 2
/( k  1)
F (k  1, n  k )   STC 
SRC /( n  k ) SRC (n  k ) (1  R 2 ) /( n  k )
STC
Se demuestra fácilmente que el SRC/STC es igual a 1 - R2.
1
PRUEBA F
 (Y  Y ) 2
  (Yˆ  Y ) 2
  e 2
STC  SEC  SRC

R2 
SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y ) 2
Y  1   2 X  u H 0 :  2  0, H1 :  2  0
SEC
(k  1)
SEC /( k  1) R 2
/( k  1)
F (k  1, n  k )   STC 
SRC /( n  k ) SRC (n  k ) (1  R 2 ) /( n  k )
STC
F es una función que aumenta monótonamente respect a R2. A medida que R2 aumenta, el
numerador aumenta y el denominador disminuye, así que por ambas razones F se
incrementa.
1
PRUEBA F
F
R 2 /( k  1)
140
F ( k  1, n  k ) 
(1  R 2 ) /( n  k )
120
R2 / 1
100 F (1,18) 
(1  R 2 ) / 18
80
60
40
20
0
0 0.2 0.4 0.6 0.8 1 R2
Aquí se traza F en función de R2 para el caso de que haya 1 variable explicativa y 20

observaciones.
11
PRUEBA F
F
R 2 /( k  1)
140
F ( k  1, n  k ) 
(1  R 2 ) /( n  k )
120
R2 / 1
100 F (1,18) 
(1  R 2 ) / 18
80
60
40
20
0
0 0.2 0.4 0.6 0.8 1 R2
Si la hipótesis nula es cierta, F tendrá una distribución aleatoria.
11
PRUEBA F
F
R 2 /( k  1)
140
F ( k  1, n  k ) 
(1  R 2 ) /( n  k )
120
R2 / 1
100 F (1,18) 
(1  R 2 ) / 18
80
Fcrit , 5% (1,18)  4.41
60
40
20
0
0 0.2 0.4 0.6 0.8 1 R2
Habrá algún valor crítico que sólo superará el 5 por ciento de las veces. Si realizamos una
prueba de significación del 5 por ciento, rechazaremos H0 si el estadístico F es mayor que
este valor crítico. .
11
PRUEBA F
F
R 2 /( k  1)
140
F ( k  1, n  k ) 
(1  R 2 ) /( n  k )
120
R2 / 1
100 F (1,18) 
(1  R 2 ) / 18
80
Fcrit , 5% (1,18)  4.41
60
40
20
0
0 0.2 0.4 0.6 0.8 1 R2
En el caso de una prueba de F, el valor crítico depende del número de variables explicativas
así como del número de grados de libertad.
11
PRUEBA F
F
R 2 /( k  1)
140
F ( k  1, n  k ) 
(1  R 2 ) /( n  k )
120
R2 / 1
100 F (1,18) 
(1  R 2 ) / 18
80
Fcrit , 5% (1,18)  4.41
60
40
20
0
0 0.2 0.4 0.6 0.8 1 R2
Para el presente ejemplo, el valor crítico para una prueba de significación del 5 por ciento
es 4,41, cuando R2 es 0,20.
11
PRUEBA F
F
R 2 /( k  1)
140
F ( k  1, n  k ) 
(1  R 2 ) /( n  k )
120
R2 / 1
100 F (1,18) 
(1  R 2 ) / 18
80
Fcrit ,1% (1,18)  8.29
60
40
20
0
0 0.2 0.4 0.6 0.8 1 R2
Si quisiéramos ser más precavidos, podríamos hacer una prueba al 1 por ciento. Para ello
el valor crítico de F es 8,29, donde R2 es 0,32.
11
PRUEBA F
F
R 2 /( k  1)
140
F ( k  1, n  k ) 
(1  R 2 ) /( n  k )
120
R2 / 1
100 F (1,18) 
(1  R 2 ) / 18
80
Fcrit ,1% (1,18)  8.29
60
40
20
0
0 0.2 0.4 0.6 0.8 1 R2
Si quisiéramos ser más precavidos, podríamos hacer una prueba al 1 por ciento. Para ello
el valor crítico de F es 8,29, donde R2 es 0,32.
11
PRUEBA F
F
R 2 /( k  1)
140
F ( k  1, n  k ) 
(1  R 2 ) /( n  k )
120
R2 / 1
100 F (1,18) 
(1  R 2 ) / 18
80
Fcrit ,1% (1,18)  8.29
60
40
20
0
0 0.2 0.4 0.6 0.8 1 R2
Si R2 es superior a 0,32, F será superior a 8,29, y rechazaremos la hipótesis nula al 1 por

ciento de significancia.
17
PRUEBA F
F
R 2 /( k  1)
140
F ( k  1, n  k ) 
(1  R 2 ) /( n  k )
120
R2 / 1
100 F (1,18) 
(1  R 2 ) / 18
80
Fcrit ,1% (1,18)  8.29
60
40
20
0
0 0.2 0.4 0.6 0.8 1 R2
¿Por qué realizamos la prueba indirectamente, a través de F, en lugar de directamente a

través de R2? Después de todo, sería fácil calcular los valores críticos de R2 a partir de los
de F.
17
PRUEBA F
F
R 2 /( k  1)
140
F ( k  1, n  k ) 
(1  R 2 ) /( n  k )
120
R2 / 1
100 F (1,18) 
(1  R 2 ) / 18
80
Fcrit ,1% (1,18)  8.29
60
40
20
0
0 0.2 0.4 0.6 0.8 1 R2
La razón es que una prueba F puede utilizarse para varias pruebas de análisis de la
varianza. En lugar de tener una tabla especializada para cada prueba, es más conveniente
tener sólo una.
19
PRUEBA F
 (Y  Y ) 2
  (Yˆ  Y ) 2
  e 2
STC  SEC  SRC

R2 
SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y ) 2
Y  1   2 X  u H 0 :  2  0, H1 :  2  0
SEC
(k  1)
SEC /( k  1) R 2
/( k  1)
F (k  1, n  k )   STC 
SRC /( n  k ) SRC (n  k ) (1  R 2 ) /( n  k )
STC
Obsérvese que, para el análisis de regresión simple, las hipótesis nula y alternativa son
matemáticamente exactamente las mismas que para la prueba de la t de dos colas. ¿Podría
la prueba F llegar a una conclusión diferente de la prueba t?
1
PRUEBA F
 (Y  Y ) 2
  (Yˆ  Y ) 2
  e 2
STC  SEC  SRC

R2 
SEC

 i
(Yˆ  Y ) 2
STC  (Yi  Y ) 2
Y  1   2 X  u H 0 :  2  0, H1 :  2  0
SEC
(k  1)
SEC /( k  1) R 2
/( k  1)
F (k  1, n  k )   STC 
SRC /( n  k ) SRC (n  k ) (1  R 2 ) /( n  k )
STC
La respuesta, por supuesto, es no. Demostraremos que, para un análisis de regresión

simple, el estadístico F es el cuadrado del estadístico t.
1
PRUEBA F
F
SEC

Y 
 i Y
ˆ 2
SRC /( n  2)  ei2 n  2

 ˆ ˆ ˆ ˆ
[ 1   2 X i ]  [ 1   2 X ]
2

 2   2 X i  X 
1 ˆ 2 2
ˆ u 2
ˆ u
ˆ
2 ˆ
2 ˆ
2
 2  X i  X   2
2 2 2
2
 t 2
ˆ u ˆ u  X i  X 
2

e.e.(ˆ2 ) 
2
Empezamos reemplazando SEC y SRC por sus expresiones matemáticas.
31
PRUEBA F
F
SEC

Y 
 i Y
ˆ 
2
SRC /( n  2)  ei2 n  2

 ˆ ˆ ˆ ˆ
[ 1   2 X i ]  [ 1   2 X ]
2

 2   2 X i  X 
1 ˆ 2 2
ˆ u 2
ˆ u
ˆ
2 ˆ
2 ˆ
2
 2  X i  X   2
2 2 2
2
 t 2
ˆ u ˆ u  X i  X 
2
e.e.(ˆ2 )2

El denominador es la expresión para la varianza de la perturbación estimada. Expandimos
el numerador usando la expresión para la relación ajustada.
31
PRUEBA F
F
SEC

Y 
 i Y
ˆ 2
SRC /( n  2)  ei2 n  2

 ˆ ˆ ˆ ˆ
[ 1   2 X i ]  [ 1   2 X ]
2

 2   2 X i  X 
1 ˆ 2 2
ˆ u 2
ˆ u
ˆ
2 ˆ
2 ˆ
2
 2  X i  X   2
2 2 2
2
 t 2
ˆ u ˆ u  X i  X 
2
e.e.(ˆ2 ) 
2

Los términos del intercepto (beta1) del numerador se cancelan. El resto del numerador
puede ser agrupado como se muestra.
31
PRUEBA F
F
SEC

Y 
 i Y
ˆ 2
SRC /( n  2)  ei2 n  2

 ˆ ˆ ˆ ˆ
[ 1   2 X i ]  [ 1   2 X ]
2

 2   2 X i  X 
1 ˆ 2 2
ˆ u 2
ˆ u
ˆ
2 ˆ
2 ˆ
2
 2  X i  X   2
2 2 2
2
 t 2
ˆ u ˆ u  X i  X 
2

e.e.(ˆ2 ) 
2
Ya que el termino β22 es una constant, puede salir de la suma.
31
PRUEBA F
F
SEC

Y 
 i Y
ˆ 2
SRC /( n  2)  ei2 n  2

  ˆ ˆ ˆ ˆ
[ 1   2 X i ]  [ 1   2 X ]
2

 2   2 X i  X 
1 ˆ 2 2
ˆ u 2
ˆ u
ˆ
2 ˆ
2 ˆ
2
 2  X i  X   2
2 2 2
2
 t 2
ˆ u ˆ u  X i  X 
2
 
e.e.(ˆ2 )
2
Movemos el término que involucra a X al denominador.
31
PRUEBA F
F
SEC

Y 
 i Y
ˆ 2
SRC /( n  2)  ei2 n  2

 ˆ ˆ ˆ ˆ
[ 1   2 X i ]  [ 1   2 X ]
2

 2   2 X i  X 
1 ˆ 2 2
ˆ u 2
ˆ u
ˆ
2 ˆ
2 ˆ
2
 2  X i  X   2
2 2 2
2
 t 2
ˆ u ˆ u  X i  X 
2
 
e.e.(ˆ2 )
2
El denominador es el cuadrado del error estándar de β2.
31
PRUEBA F
F
SEC

Y 
 i Y
ˆ 2
SRC /( n  2)  ei2 n  2

 ˆ ˆ ˆ ˆ
[ 1   2 X i ]  [ 1   2 X ]
2

 2   2 X i  X 
1 ˆ 2 2
ˆ u 2
ˆ u
ˆ
2 ˆ
2 ˆ
2
 2  X i  X   2
2 2 2
2
 t 2
ˆ u ˆ u  X i  X 
2
e.e.(ˆ2 )
2
 
Por lo tanto, obtenemos β22 dividiendo por el cuadrado del error estándar de β2. Esta es el
estadístico t, al cuadrado.
31
PRUEBA F
F
SEC

Y 
 i Y
ˆ 2
SRC /( n  2)  ei2 n  2

 ˆ ˆ ˆ ˆ
[ 1   2 X i ]  [ 1   2 X ]
2

 2   2 X i  X 
1 ˆ 2 2
ˆ u 2
ˆ u
ˆ
2 ˆ
2 ˆ
2
 2  X i  X   2
2 2 2
2
 t 2
ˆ u ˆ u  X i  X 
2
e.e.(ˆ2 )
2
 
También se puede demostrar que el valor crítico de F, en cualquier nivel de significación, es

igual al cuadrado del valor crítico de t. No intentaremos demostrar esto.
31
PRUEBA F
F
SEC

Y 
 i Y
ˆ 2
SRC /( n  2)  ei2 n  2

 ˆ ˆ ˆ ˆ
[ 1   2 X i ]  [ 1   2 X ]
2

 2   2 X i  X 
1 ˆ 2 2
ˆ u 2
ˆ u
ˆ
2 ˆ
2 ˆ
2
 2  X i  X   2
2 2 2
2
 t 2
ˆ u ˆ u  X i  X 
2
e.e.(ˆ2 )
2
 
Dado que la prueba F es equivalente a una prueba t de dos colas en el modelo de regresión
simple, no tiene sentido realizar ambas pruebas. De hecho, si se justifica, una prueba t de
una cola sería mejor que cualquiera de las dos porque es más potente (menor riesgo de 31
PRUEBA F
F
SEC

Y 
 i Y
ˆ 2
SRC /( n  2)  ei2 n  2

 ˆ ˆ ˆ ˆ
[ 1   2 X i ]  [ 1   2 X ]
2

 2   2 X i  X 
1 ˆ 2 2
ˆ u 2
ˆ u
ˆ
2 ˆ
2 ˆ
2
 2  X i  X   2
2 2 2
2
 t 2
ˆ u ˆ u  X i  X 
2
e.e.(ˆ2 ) 
2

La prueba F tendrá su propio papel cuando lleguemos al análisis de regresión múltiple.
31
Resumen PRUEBA F
Estadísticas de la regresión
Coeficiente de correlación múltiple 0.85120512
Coeficiente de determinación R^2 0.72455015
R^2 ajustado 0.72184966
Error típico 1.18916832
Observaciones 104
ANÁLISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Promedio de los cuadradosF Valor crítico de F
Regresión 1 379.413473 379.413473 268.303344 2.5535E-30
Residuos 102 144.240373 1.4141213
Total 103 523.653846
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95%

Intercepción 186.507143 5.76733501 32.3385311 2.0053E-55 175.067661 197.946625
Xi -1.75031056 0.10685678 -16.3799678 2.5535E-30 -1.96226047 -1.53836065
Aquí se presentan los resultados de la regresión de ejemplo DT1
32
Resumen PRUEBA F
R^2 ajustado 0.72184966
Observaciones 104
Grados de libertad
Suma de cuadrados
Regresión 1 379.413473 379.413473 268.303344 2.5535E-30
Residuos 102 144.240373 1.4141213
Total 103 523.653846

Intercepción 186.507143 5.76733501 32.3385311 2.0053E-55 175.067661 197.946625
Xi -1.75031056 0.10685678 -16.3799678 2.5535E-30 -1.96226047 -1.53836065
SEC 379,41 379 .41

F (1, n  2)     269,30
( SRC) /( n  2) 144,24 /(104  2) 1,41
Comprobaremos que el estadístico F ha sido calculado correctamente. La suma explicada

de cuadrados (descrita en excel como Suma de Cuadrados de la regresión en el cuadro
Análisis de Varianza ) es de 379,41
32
Resumen PRUEBA F
R^2 ajustado 0.72184966
Observaciones 104
Grados de libertad
Suma de cuadrados
Regresión 1 379.413473 379.413473 268.303344 2.5535E-30
Residuos 102 144.240373 1.4141213
Total 103 523.653846

Intercepción 186.507143 5.76733501 32.3385311 2.0053E-55 175.067661 197.946625
Xi -1.75031056 0.10685678 -16.3799678 2.5535E-30 -1.96226047 -1.53836065
SEC 379,41 379 .41

F (1, n  2)     269,30
( SRC) /( n  2) 144,24 /(104  2) 1,41
La suma residual de cuadrados es de 144,24
32
Resumen PRUEBA F
R^2 ajustado 0.72184966
Observaciones 104
Grados de libertad
Suma de cuadrados
Regresión 1 379.413473 379.413473 268.303344 2.5535E-30
Residuos 102 144.240373 1.4141213
Total 103 523.653846

Intercepción 186.507143 5.76733501 32.3385311 2.0053E-55 175.067661 197.946625
Xi -1.75031056 0.10685678 -16.3799678 2.5535E-30 -1.96226047 -1.53836065
SEC 379,41 379 .41

F (1, n  2)     269,30
( SRC) /( n  2) 144,24 /(104  2) 1,41
El número de grados de libertad es de 102 (104 datos menos 2 parámetros a estimar.
32
Resumen PRUEBA F
R^2 ajustado 0.72184966
Observaciones 104
Grados de libertad
Suma de cuadrados
Regresión 1 379.413473 379.413473 268.303344 2.5535E-30
Residuos 102 144.240373 1.4141213
Total 103 523.653846

Intercepción 186.507143 5.76733501 32.3385311 2.0053E-55 175.067661 197.946625
Xi -1.75031056 0.10685678 -16.3799678 2.5535E-30 -1.96226047 -1.53836065
SEC 379,41 379 .41

F (1, n  2)     269,30
( SRC) /( n  2) 144,24 /(104  2) 1,41
El denominador de la expresión para F es, por lo tanto, 1,41. Nótese que esta es una
estimación de u2. . Su raíz cuadrada, denotada en Excel por Error típico, es una estimación
de la desviación estándar de u.
32
Resumen PRUEBA F
R^2 ajustado 0.72184966
Observaciones 104
Grados de libertad
Suma de cuadrados
Regresión 1 379.413473 379.413473 268.303344 2.5535E-30
Residuos 102 144.240373 1.4141213
Total 103 523.653846

Intercepción 186.507143 5.76733501 32.3385311 2.0053E-55 175.067661 197.946625
Xi -1.75031056 0.10685678 -16.3799678 2.5535E-30 -1.96226047 -1.53836065
SEC 379,41 379 .41

F (1, n  2)     269,30
( SRC) /( n  2) 144,24 /(104  2) 1,41
Nuestro cálculo de F concuerda con el de la salida de Excel.
32
Resumen PRUEBA F
R^2 ajustado 0.72184966
Observaciones 104
Grados de libertad
Suma de cuadrados
Regresión 1 379.413473 379.413473 268.303344 2.5535E-30
Residuos 102 144.240373 1.4141213
Total 103 523.653846

Intercepción 186.507143 5.76733501 32.3385311 2.0053E-55 175.067661 197.946625
Xi -1.75031056 0.10685678 -16.3799678 2.5535E-30 -1.96226047 -1.53836065
R2 0.72455
F (1, n  2)    268,30
(1  R ) /( n  2) (1  0.72455 ) /(104  2)
2
También comprobaremos F usando la expresión para ello en términos de R2. Vemos que la
misma de nuevo que está de acuerdo.
32
Resumen PRUEBA F
R^2 ajustado 0.72184966
Observaciones 104
Grados de libertad
Suma de cuadrados
Regresión 1 379.413473 379.413473 268.303344 2.5535E-30
Residuos 102 144.240373 1.4141213
Total 103 523.653846

Intercepción 186.507143 5.76733501 32.3385311 2.0053E-55 175.067661 197.946625
Xi -1.75031056 0.10685678 -16.3799678 2.5535E-30 -1.96226047 -1.53836065
También comprobaremos la relación entre la estadística F y la estadística t para el

coeficiente de pendiente.
32
Resumen PRUEBA F
R^2 ajustado 0.72184966
Observaciones 104
Grados de libertad
Suma de cuadrados
Regresión 1 379.413473 379.413473 268.303344 2.5535E-30
Residuos 102 144.240373 1.4141213
Total 103 523.653846

Intercepción 186.507143 5.76733501 32.3385311 2.0053E-55 175.067661 197.946625
Xi -1.75031056 0.10685678 -16.3799678 2.5535E-30 -1.96226047 -1.53836065
Fk 1,n  k  t 2ˆ
2
268,30  16,3799 2
¡Es correcta!
32
Semana 4. Interpretación
de una ecuación
de regresión

Interpretación de una de regresión
40000
35000
30000
Salarios (Bs Mensual)
25000
20000
15000
10000
5000
0
0 2 4 6 8 10 12 14 16 18 20
Años de Estudio
El diagrama de dispersión muestra los ingresos mensuales en 2018 comparados con los años de
escolaridad, o años de estudio para una muestra de 2552 personas de la ciudad de Cochabamba en la
Encuesta de hogares 2018
1
40000
35000
30000
25000
20000
15000
10000
5000
0
0 2 4 6 8 10 12 14 16 18 20
Años de Estudio
12 años son los años que se pasan clases hasta el bachillerato. Los grados 13, 14, 15, 16 y 17 significan la
finalización de uno, a cinco años de universidad. Finalizando 17 años se tiene a graduados universitarios.
1
40000
35000
30000
25000
20000
15000
10000
5000
0
0 2 4 6 8 10 12 14 16 18 20
Años de Estudio
Finalizando 17 años se tiene a graduados universitarios. Los grados superiores indican años de educación
de postgrado
1
40000
35000
30000
25000
20000
15000
10000
5000
0
0 2 4 6 8 10 12 14 16 18 20
Años de Estudio
Finalizando 17 años se tiene a graduados universitarios. Los grados superiores indican años de educación
de postgrado
1
R^2 ajustado 0.09626553
Observaciones 2552
Promedio de
Grados de Suma de los Valor crítico
libertad cuadrados cuadrados F de F
Regresión 1 1319209484 1319209484 272.731775 2.751E-58
Residuos 2550 1.2334E+10 4837021.58
Total 2551 1.3654E+10

Intercepción 1599.97884 107.363277 14.9024777 3.2023E-48 1389.45076 1810.50693
escolaridad 145.005615 8.78045357 16.5145928 2.751E-58 127.78807 162.22316
Esta es la salida de regresión usando el software Excel
4
R^2 ajustado 0.09626553
Observaciones 2552
Promedio de
Regresión 1 1319209484 1319209484 272.731775 2.751E-58
Residuos 2550 1.2334E+10 4837021.58
Total 2551 1.3654E+10

Intercepción 1599.97884 107.363277 14.9024777 3.2023E-48 1389.45076 1810.50693
escolaridad 145.005615 8.78045357 16.5145928 2.751E-58 127.78807 162.22316
Esta es la salida de regresión usando el software Excel
4
R^2 ajustado 0.09626553
Observaciones 2552
Promedio de
Regresión 1 1319209484 1319209484 272.731775 2.751E-58
Residuos 2550 1.2334E+10 4837021.58
Total 2551 1.3654E+10

Intercepción 1599.97884 107.363277 14.9024777 3.2023E-48 1389.45076 1810.50693
escolaridad 145.005615 8.78045357 16.5145928 2.751E-58 127.78807 162.22316
Por el momento, sólo nos preocuparemos de las estimaciones de los parámetros. Las nombres de las
variables de la regresión se enumeran en la primera columna y la segunda columna las estimaciones de
sus coeficientes.
4
R^2 ajustado 0.09626553
Observaciones 2552
Promedio de
Regresión 1 1319209484 1319209484 272.731775 2.751E-58
Residuos 2550 1.2334E+10 4837021.58
Total 2551 1.3654E+10

Intercepción 1599.97884 107.363277 14.9024777 3.2023E-48 1389.45076 1810.50693
escolaridad 145.005615 8.78045357 16.5145928 2.751E-58 127.78807 162.22316
En este caso sólo hay una variable, escolaridad, y su coeficiente es de 145,005. La primera fila, en excel,
se refiere al intercepto también conocido como la constante. La estimación de la intercepción es de -
1599,98.
4
40000
^
35000 salarios  1599,98  145escolaridad
30000
25000
20000
15000
10000
5000
0
0 5 10 15 20
Años de Estudio
Aquí está el diagrama de dispersión de nuevo, con la línea de regresión estimada.
1
40000
^
30000
25000
20000
15000
10000
5000
0
0 5 10 15 20
Años de Estudio
¿Qué significan realmente estos coeficientes?
1
40000
^
30000
25000
20000
15000
10000
5000
0
0 5 10 15 20
Años de Estudio
Para responder a esta pregunta, debe referirse a las unidades en las que se miden las variables.
1
40000
^
30000
25000
20000
15000
10000
5000
0
0 5 10 15 20
Años de Estudio
La escolaridad se mide en años (en sentido estricto, grados completados), SALARIOS en Bs por mes. Así
que el coeficiente de pendiente implica que los ingresos por mes aumentan en 145 bolivianos en
promedio por cada año extra de escolaridad.
1
40000
^
30000
25000
20000
15000
10000
5000
0
0 5 10 15 20
Años de Estudio
Veremos una representación geométrica de esta interpretación. Para ello, ampliaremos la sección
marcada del diagrama de dispersión.
1
3500
3450
3400
Bs 3.340
Salarios Bs Mensual
3350
3300
3250 Bs. 3.195

Bs. 145
3200
Un año
3150
3100
3050
3000
10,80 11,00 11,20 11,40 11,60 11,80 12,00 12,20
Años de Estudio
La línea de regresión estimada indica que completar 12 años de escolaridad en lugar del 11años de
escolaridad aumentaría los ingresos en 145 BS, de 3.195 a 3.340 Bs, como tendencia general.
12
40000
^
30000
25000
20000
15000
10000
5000
0
0 5 10 15 20
Años de Estudio
Deberías preguntarte si esta es una cifra plausible. Si es inverosímil, podría ser una señal de que su
modelo está mal especificado de alguna manera.
1
40000
^
30000
25000
20000
15000
10000
5000
0
0 5 10 15 20
Años de Estudio
Para niveles bajos de educación podría ser plausible. Pero para niveles altos parecería ser una
subestimación.
1
40000
^
30000
25000
20000
15000
10000
5000
0
0 5 10 15 20
Años de Estudio
¿Qué hay del término constante? (Intenta responder a esta pregunta antes de continuar con esta
presentación.)
1
40000
^
30000
25000
20000
15000
10000
5000
0
0 5 10 15 20
Años de Estudio
Literalmente, la constante indica que un individuo sin años de educación tendría un salario promedio de
1599 Bs.
1
40000
^
30000
25000
20000
15000
10000
5000
0
0 5 10 15 20
Años de Estudio
Esa interpretación, si bien en este ejemplo tiene sentido, por la idea del salario mínimo nacional, en otros
contextos no tiene mucho sentido.
1
En este gráfico observamos un intercepto negativo, que es el punto donde la recta estimada choca con el
eje de las Y. A menudo la ausencia de datos en la parte inferior izquierda del gráfico, nos induce esa
interpretación literal, pues extrapolamos los datos hacia el “0”. Lo mejor es, muchas veces, no tratar de
interpretar de forma literal ese coeficiente. 1
Una solución segura al problema es limitar la interpretación al rango de los datos de la muestra, y negarse
a extrapolar sobre la base de que no tenemos pruebas fuera del rango de los datos.
1
40000
^
30000
25000
20000
15000
10000
5000
0
0 5 10 15 20
Años de Estudio
Entonces, la única función del término constante es permitirle dibujar la línea de regresión a la altura
correcta en el diagrama de dispersión. Generalmente, no tiene un significado propio.
1
40000
^
30000
25000
20000
15000
10000
5000
0
0 5 10 15 20
Años de Estudio
Otra solución es explorar la posibilidad de que la verdadera relación sea no lineal y que la aproximemos
con una regresión lineal. Pronto extenderemos la técnica de regresión para que se ajuste a los modelos
no lineales.
1

Ilovepdf Merged

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ilovepdf Merged

Cargado por

Copyright:

Formatos disponibles

El modelo de regresión

Fernando Gonzales Fernández

Además tenemos una muestra de 4 observaciones con valores X .

Pero, en la practica, solo podemos ver los puntos P.

El término de perturbación en cada observación es responsable de la divergencia entre el componente no

b1 Yˆ4  bˆ1  bˆ2 X 4

Criterio Mínimos Cuadrados:

Minimizar SRC (suma residual de cuadrados), donde

Criterio Minimos cuadrados

Minimizar SRC (suma residual de cuadrados), donde

Clases virtuales semestre 1-2020

Fernando Gonzales Fernández

3 Y1 e1  Y1  Yˆ1  3  ˆ1  ˆ2

1 e3  Y3  Yˆ3  6  ˆ1  3ˆ2

Teniendo en cuenta nuestra elección de ̂1y ̂ 2 , los residuos son:

25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

e1  Y1  Yˆ1  3  ˆ1  ˆ2

e3  Y3  Yˆ3  6  ˆ1  3ˆ2

La suma residual de cuadrados se muestra arriba.

25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

e1  Y1  Yˆ1  3  ˆ1  ˆ2

e3  Y3  Yˆ3  6  ˆ1  3ˆ2

Los cuadrados han sido expandidos.

25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

Los términos han sido sumados.

25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

 ˆ1  1.67, ˆ2  1.50

Observamos nuevamente el diagrama de dispersión

Se observa además la línea estimada y los valores estimados de Y .

Ahora hacemos lo mismo para el caso general con n observaciones.

Yˆn  ˆ1  ˆ2 X n

Yˆ1  ˆ1  ˆ2 X 1

Yˆn  ˆ1  ˆ2 X n

Definimos el residuo para la primera observación.

Yˆn  ˆ1  ˆ2 X n

25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

Los cuadrados son expandidos.

25  ˆ12  4 ˆ22  10 ˆ1  20 ˆ2  4 ˆ1ˆ2

Términos iguales son sumados.

SRC  70  3ˆ12  14 ˆ22  28ˆ1  62 ˆ2  12 ˆ1ˆ2

SRC   Yi 2  nˆ12  ˆ22  X i2  2ˆ1  Yi  2ˆ2  X iYi  2ˆ1ˆ2  X i

SRC  70  3ˆ12  14 ˆ22  28ˆ1  62 ˆ2  12 ˆ1ˆ2

SRC   Yi 2  nˆ12  ˆ22  X i2  2ˆ1  Yi  2ˆ2  X iYi  2ˆ1ˆ2  X i

SRC  70  3ˆ12  14 ˆ22  28ˆ1  62 ˆ2  12 ˆ1ˆ2

SRC   Yi 2  nˆ12  ˆ22  X i2  2ˆ1  Yi  2ˆ2  X iYi  2ˆ1ˆ2  X i

SRC  70  3ˆ12  14 ˆ22  28ˆ1  62 ˆ2  12 ˆ1ˆ2

SRC   Yi 2  nˆ12  ˆ22  X i2  2ˆ1  Yi  2ˆ2  X iYi  2ˆ1ˆ2  X i

La primera derivada respecto a b1.

SRC  70  3ˆ12  14 ˆ22  28ˆ1  62 ˆ2  12 ˆ1ˆ2

SRC   Yi 2  nˆ12  ˆ22  X i2  2ˆ1  Yi  2ˆ2  X iYi  2ˆ1ˆ2  X i

Bajo algunas manipulaciones obtenemos una expresión ordenada para ̂1.

SRC  70  3ˆ12  14 ˆ22  28ˆ1  62 ˆ2  12 ˆ1ˆ2

SRC   Yi 2  nˆ12  ˆ22  X i2  2ˆ1  Yi  2ˆ2  X iYi  2ˆ1ˆ2  X i

SRC   Yi 2  nˆ12  ˆ22  X i2  2ˆ1  Yi  2ˆ2  X iYi  2ˆ1ˆ2  X i

SRC   Yi 2  nˆ12  ˆ22  X i2  2ˆ1  Yi  2ˆ2  X iYi  2ˆ1ˆ2  X i

ˆ2  X i2   X iYi  (Y  ˆ2 X ) X i  0

SRC   Yi 2  nˆ12  ˆ22  X i2  2ˆ1  Yi  2ˆ2  X iYi  2ˆ1ˆ2  X i

ˆ2  X i2   X iYi  (Y  ˆ2 X ) X i  0

La definición de la media muestral ha sido usada .

ˆ2  X i2   X iYi  (Y  ˆ2 X ) X i  0