Está en la página 1de 46

Apuntes de Clases

Sergio J. Carrasco

April 17, 2023

1 Conceptos Básicos
Durante este curso vamos a estudiar la relación entre una variable aleatoria Y , a la cual llamaremos
variable explicada, y un vector formado por d variables, denotado con
 
X1
X 
 
~ =  . 2  = (X1 , X2 , . . . , Xd )> ,
X (1)
 . 
 . 
Xd

a las cuales llamaremos variables explicativas. Al vector X ~ también se le dice feature vector.
Otros nombres comúnmente empleados para las distintas variables se resumen en la tabla 1. Las
variables explicativas pueden ser variables aleatorias (como ocurre en un contexto no experimen-
tal), o bien, variables no aleatorias, esto es, variables controladas (como ocurre en un contexto
experimental). Algunos ejemplos se presentan a continuación.

Y X~ = (X1 , . . . , Xd )>
Variable Explicada Variable Explicativas
Variable Dependiente Variables Independientes
Variable Respuesta Variables de Control
Regresando Regresores
Predicción Predictores
Variable Endógena Variables Exógenas

~ Y ).
Table 1: Distintos nombres para las variables (X,

Ejemplo 1.1. (Ciencias Sociales) La variable Y podrı́a ser la mortalidad infantil en un paı́s
cualquiera (número de muertes de niños menores a 5 años durante un año, por cada mil nacimien-
~ = (X1 , X2 , X3 )> , en donde X1 representa el
tos), y el vector de variables explicativas podrı́a ser X
Pib per cápita, X2 la tasa de alfabetización de la población de mujeres y X3 la tasa de fertilidad
(número de hijos por mujer) del paı́s.

1
Ejemplo 1.2. (Economı́a) La variable Y es el salario promedio de un individuo (dólares por mes)
~ = (X1 , X2 , X3 , X4 )> , en donde X1 son los años
durante un cierto año T . El set de variables es X
de educación y X2 los años de experiencia laboral del individuo acumulados hasta el año T . La
variable X3 es una variable categórica definida del siguiente modo:

1 si el trabajador participó previamente en un cierto programa de capacitación,
X3 = (2)
0 en caso contrario.

Por último, el cuarto regresor (X4 ) es el número de hijos del individuo en el año T .
Ejemplo 1.3. (Microeconomı́a) La demanda de un commodity corresponde a la variable explicada
~ = (X1 , X2 , X3 , X4 )> , en donde X1 es el
Y , mientras que el vector de variables explicativas es X
precio del commodity, X2 el precio de un commodity complementario, X3 el precio de un commodity
competidor y X4 representa el ingreso real de los consumidores.
Ejemplo 1.4. (Macroeconomı́a) La variable respuesta Y es la tasa de polı́tica monetaria (TPM)
fijada por el Banco Central de Chile para un cierto año, mientras que X ~ = (X1 , X2 , X3 )> . La
variable X1 representa la inflación, X2 el producto y X3 el déficit fiscal del periodo anterior.
Ejemplo 1.5. (Macroeconomı́a, Fundamental Psychological Law) La variable Y representa el con-
sumo total de una cierta economı́a durante un año, mientras que el vector de variables explicativas
~ = (X1 ), en donde X1 es el ingreso total durante ese año.
está formado por un único regresor X
Ejemplo 1.6. (Finanzas) La variable Y representa la variación porcentual semanal del ı́ndice de
acciones S&P 500, mientras que X ~ = (X1 ) (una sola variable explicativa), en donde X1 es la
variación porcentual de la semana anterior.
Ejemplo 1.7. (Astronomı́a) La variable explicada Y es la velocidad estelar de dispersión de una
galaxia elı́ptica (informalmente, una medida de la diferencia entre la velocidad de las estrellas más
lejanas al centro de la galaxia y la velocidad media de todas las estrellas de la galaxia) y la variable
explicativa X ~ = (X1 ), en donde X1 es la luminosidad de la galaxia.

Ejemplo 1.8. (Biologı́a) La variable Y es el tiempo que le toma a un ratón en recorrer un laberinto
complejo al final del cual hay una recompensa (agua, por ejemplo). La variable explicativa es
~ = (X1 ), en donde X1 es el número de veces que el ratón ha completado previamente el laberinto.
X
Ejemplo 1.9. (Medicina) Nos interesa predecir el peso de un niño al nacer, en base al peso de la
madre (al nacer) e información relativa a su consumo de cigarros. De este modo, la variable Y es
el peso de un niño al nacer (en kilos), y el vector de variables explicativas es X = (X1 , X2 )> . La
variable explicativa X1 es el peso de la madre (en kilos) y X2 una variable cualitativa, que toma los
valores {Fumadora, No-fumadora}. Le asignaremos el valor 1 si la madre es fumadora y el valor 0
en caso contrario.
Ejemplo 1.10. (Ingenierı́a) La respuesta Y es una variable definida del siguiente modo:

1 si se debe recomendar navegación automática del transbordador Shuttle,
Y = (3)
0 en caso contrario (mantener navegación manual).

2
~ = (X1 , X2 , X3 , X4 , X5 , X6 )> y se definen de la siguiente manera:
Las variables predictoras son X
 
1 si hay viento de cola, 1 si la posición de la nave es estable,
X1 = X2 = (4)
0 en caso contrario, 0 en caso contrario (xstab),

1 si hay visibilidad,
X3 = (5)
0 en caso contrario.

La variable X4 indica si hay algún tipo de error en la navegación (hay 4 tipos de error: XL, LX,
MM, SS) y la variable X5 indica si el error tiene signo negativo o positivo. Por último, la variable
X6 describe la magnitud del viento (baja, media, fuerte y fuera de rango). Más información acerca
de este problema en (Michie et al., 1988).

Ejemplo 1.11. (Medicina) Suponga que la variable Y toma el valor 1 si una masa extraı́da de
un seno es un tumor es maligno y 0 en caso contrario. El vector de variables explicativas es
X~ = (X1 , X2 , X3 , X4 , X5 , X6 , X7 , X8 , X9 , X10 )> . Las variables explicativas se describen en la tabla
(2). Más información acerca de este problema en (Street et al., 1993).

X1 Radio
X2 Textura
X3 Perı́metro
X4 Área
X5 Suavidad
X6 Compacidad
X7 Concavidad
X8 Puntos cóncavos
X9 Simetrı́a
X10 Dimensión fractal

Table 2: Variables predictoras para la detección de cáncer de mama

Ejemplo 1.12. (Mail) Suponga que el set de variables explicativas X ~ contiene información relevante
para caracterizar un email. Por ejemplo, una variable explicativa podrı́a ser el número de veces que
aparece la palabra “oferta” en el correo electrónico. La variable respuesta Y toma el valor 1 si el
mail es clasificado como spam y 0 en caso contrario.

Ejemplo 1.13. (Ciencias Polı́ticas) La variable explicada Y corresponde al porcentaje de votos


obtenido por el candidato A en una elección de dos candidatos polı́ticos (A, B). La variable explica-
~ = (X1 ), en donde X1 es el gasto relativo del candidato A durante la campaña electoral.
tiva es X

Ejemplo 1.14. (Polı́ticas Públicas) La variable Y es una medida del crimen per capita en una
~ = (X1 , X2 , X3 )> . La variable X1 es el desempleo, X2 el gasto per capita
ciudad, mientras que X
en medidas preventivas del crimen y X3 el crimen per capita registrado en periodos anteriores.

3
Ejemplo 1.15. (Agricultura) Queremos entender cómo la producción de un terreno (variable Y ),
medida en (t/ha), depende de X ~ = (X1 , X2 )> , en donde X1 representa la cantidad de fertilizante
aplicado (kg/ha) y X2 la cantidad de pesticidas aplicada (kg/ha).

Como se ilustra en los diferentes ejemplos anteriores, las variables (X, ~ Y ) pueden tomar valores
numéricos, pudiendo ser continuas, si toman valores en algún intervalo I ∈ R, o discretas, como
la variable X4 del ejemplo (1.2) que toma valores en N0 = {0, 1, 2, . . .}. En todos estos casos diremos
que se trata de variables variables cuantitativas. Variables como la inflación, precio, salario, etc.,
son ejemplos de variables cuantitativas continuas. En cambio, variables como el número de hijos,
número de accidentes, etc., son ejemplos de variables cuantitativas discretas. Por otro lado, las
variables pueden tomar valores no numéricos. Por ejemplo, una variable “color” que toma valores
{Rojo,Verde, . . .}, la variable Y del ejemplo (1.11) o la variable X1 del ejemplo (1.10). En estos
casos, diremos que son que son variables cualitativas o variables categóricas.

Definition 1.1 (Modelo General).

~ + ε.
Y = g(X) (6)

~ le diremos función de predicción y describe cómo el vector de variables


A la función g(X)
explicativas afecta a la variable Y . La función g (del inglés, guess function) toma como input el
vector de variables explicativas X~ y produce como output una predicción g(X) ~ de la variable Y .
También se le dice la parte sistemática del modelo.
Como veremos más adelante, la función g no es completamente conocida y habrá que estimarla.
Cuando la variable Y es una variable cualitativa continua, a g se le dice función de regresión y
al problema de estimarla se le dice un problema de regresión. En cambio, cuando la variable
Y es categórica diremos que se trata de un problema de clasificación y a la función g se le
conoce como clasificador. El nombre regresión aparentemente proviene de la “ley de regresión a
la mediocridad” planteada por Francis Galton en sus estudios acerca de la transmisión de ciertas
caracterı́sticas de una generación a otra (Galton, 1886). Actualmente, a veces se habla de “correr
~ También se habla de “regresar la variable Y en X”.
la regresión de Y en X”. ~

Al segundo término del modelo (6), ε, se le denomina error o perturbación. Es una variable
aleatoria que describe el efecto de todas las variables que afectan a Y , pero no están incluidas
explı́citamente en el vector de variables explicativas X. ~ El término de error es la parte no sis-
temática del modelo. En el ejemplo (1.15) la producción de un terreno obviamente no solo depende
de las cantidades de fertilizante (X1 ) y pesticida (X2 ) aplicadas, sino que de muchı́simas otras vari-
ables no observadas explı́citamente: lluvias, luz solar, calidad del terreno, humedad, etc. La idea es
que todas las variables incluidas en ε no estén correlacionadas con X ~ (más adelante formalizaremos
matemáticamente esta idea).
Uno de los principales desafı́os será estimar el efecto ceteris paribus que tiene una variable
explicativa Xi sobre la variable explicada Y , es decir, el cambio ∆Y que experimentarı́a la variable

4
explicada Y si la variable explicativa Xi cambia en ∆Xi y el resto de las variables se mantienen fijas.
Esencialmente, esto puede ser útil para dos propósitos: i) verificar o refutar una teorı́a económica,
y ii) para tomar decisiones. En el ejemplo (1.4), si logramos “probar” (en base a datos) que
0 < ∆Y /∆X < 1, entonces podrı́amos verificar empı́ricamente la ley de Keynes acerca del consumo
(Keynes, 1936). En el ejemplo (1.2) nos podrı́a interesar estimar el cambio en la productividad
(salario) al participar del programa de capacitación y ası́ decidir si el programa es eficaz y conviene
participar de éste. Por otra parte, usando la función de predicción g nos interesará también hacer
predicciones de la variable Y en base a los valores que toman las variables explicativas.

Organización y representación de datos. Asumimos que existe un proceso generador de una


serie de N datos. Dicho proceso puede ser de dos tipos: i) un experimento, o ii) la observación (o
medición) de las variables (por ejemplo, a través de una encuesta). Ya sean datos experimentales o
no experimentales, éstos se arreglan en una tabla de datos del modo descrito a continuación.

~
Y ~>
X
z }| { z }| {
ID Y X1 X2 ... Xd
1 Y1 X11 X12 ... X1d →X ~>
1
2 Y2 X21 X22 ... X2d →X ~>
2
3 Y3 X31 X32 ... X2d →X ~>
3
.. .. .. .. .. .. ..
. . . . . . .
N YN XN 1 XN 2 ... XN d →X ~>
N

~ (7). En violeta los elementos de la matriz


Table 3: Data frame. En azul se denota al vector de respuestas Y
modelo (9).

La primera columna (ID) es un ı́ndice que etiqueta a cada dato, de 1 a N (si se trata de tabla
de datos grande N  106 ). La segunda columna, marcada en color azul, está formada por las
diferentes observaciones de la variable explicada Y . Podemos coleccionar las distintas respuestas en
un solo vector de respuestas,

 
Y1
Y 
 
~ =  .2  .
Y (7)
 . 
 . 
YN

El resto de las columnas, marcadas en color violeta, corresponden a las observaciones de las variables
explicativas X1 , X2 , . . ., Xd . Si vemos esta región de la tabla por filas, es claro que la primera fila
corresponde a la primera observación del vector de variables explicativas, X ~ > , la segunda fila es la
1
segunda observación, X ~ , y ası́. Es decir, las observaciones de los vectores de variables explicativas
>
2

5
se denotan del siguiente modo:
     
X11 X21 XN 1
X  X  X 2 
     
X ~ 2 =  .22  , . . . , X
~ 1 =  .12  , X ~N =  N
 ..  . (8)

 .   . 
 .   .   . 
X1d X2d XN d
Notar entonces que Xij corresponde a la i-ésima observación de la j-ésima variable explicativa. A
la matriz X = (Xij ) se le dice matriz modelo (model matrix) o matriz de regresión,
~T
X
 
X11 X12 ... X1d

1
 ~T
 X2   X21 X22 ... X2d 


X=
 .. 
 =
 ..
 . (9)
 .   .


X~T XN 1 XN 2 . . . XN d
N N ×d N ×d

En realidad, los nombres “matriz de regresión” o “matriz modelo” se utilizan cuando las variables
explicativas son cuantitativas. Cuando son variables cualitativas (las cuales se tratan de un modo
especial), le diremos matriz de diseño. Por otra parte, cuando los datos son generados por
un experimento, como ocurre en ciencias naturales, la matriz de regresión no cambia, es decir, si
volvemos a repetir el experimento la matriz X sigue siendo la misma (lo que sı́ cambia es el vector
de respuestas Y~ ). En cambio, en ciencias sociales y economı́a tı́picamente no hay control sobre las
variables explicativas (son variables aleatorias), de modo que la matriz X varı́a si se puede volver a
tomar la muestra.
Los datos de la tabla (3) son una representación “computacional” de los datos. Matemáticamente,
los datos son un conjunto un D formado por N pares de las variables (X,~ Y ),
~ 1 , Y1 ), (X
D = {(X ~ 2 , Y2 ), . . . , (X
~ N , YN )} = {(X
~ i , Yi ), i = 1, . . . , N }. (10)
Podemos aplicar el modelo general (6) a cada uno de los datos de la serie,
~ i ) + εi ,
Yi = g(X ∀ i = 1, . . . , N. (11)
O bien, de modo exhaustivo,
~ 1 ) + ε1 ,
Y1 = g(X
~ 2 ) + ε2 ,
Y2 = g(X
..
.
YN ~ N ) + εN .
= g(X (12)
De la misma manera a como agrupamos las respuestas en un vector (7), también podemos agrupar
los errores en un solo vector
 
ε1
 ε2 
 
~ε = 
 ..  .
 (13)
 . 
εN

6
Tipos de Datos. Cada dato puede ser un determinado elemento de una población; una persona,
hogar, colegio, empresa, paı́s, etc.

Ejemplo 1.16. Supongamos que variable Y es el salario y los datos son personas: Y1 serı́a el salario
de la primera persona de la muestra, Y2 el salario de la segunda persona y ası́. En este caso, el ID
etiqueta a cada persona.

Una segunda posibilidad es que los datos sean observaciones tomadas en diferentes periodos de
tiempo de un mismo sujeto.

Ejemplo 1.17. Asuma que la variable Y (Pib de Chile) es monitoreada cada año: Y1 serı́a el Pib
de Chile durante el año 1 (digamos, el año 2010), Y2 serı́a el Pib de Chile durante el año 2 (2011)
y ası́. En este caso, el ID es el tiempo.

Cuando los datos son observaciones de distintos sujetos obtenidas durante un mismo periodo de
tiempo, hablaremos de un corte transversal. Cuando los datos son generados en el tiempo
observando a un mismo sujeto, entonces diremos que los datos son una serie de tiempo. Los
datos del ejemplo (1.16) son datos de corte transversal (o datos transversales). Los datos del ejemplo
(1.17) son una serie de tiempo. Hay estructuras de datos más complejas como cortes transversales
combinados (pooled cross sections) y datos de panel (panel data). Para almacenar estos datos
en una tabla no basta con una única columna ID. Durante este curso veremos principalmente cortes
transversales y, en menor medida, series de tiempo.
Generación de datos. Los datos experimentales son más comunes en las ciencias naturales. Por
ejemplo, en un laboratorio de electricidad podemos aplicar un voltaje X1 a un objeto de largo X2
y área transversal X3 (vector de variables explicativas X ~ = (X1 , X2 , X3 )> ) y medir la corriente Y .
Modificando los valores que toman las variables explicativas, podemos generar un set de N datos
experimentales. En cambio, los datos no experimentales son más frecuentes en ciencias sociales.
Se pueden generar a través de i) encuestas, ii) información extraı́da desde empresas (a través
de sus sistemas ERP, estados financieros), iii) estimaciones (por ejemplo, el cálculo del Imacec
realizado por el Banco Central), iv) medidas usando instrumentos o sensores (por ejemplo, en
astronomı́a, medicina o ingenierı́a), y v) monitoreo de sistemas (por ejemplo, extrayendo información
desde las bolsas de valores). Los datos son generados por instituciones privadas (por ejemplo,
Cadem), instituciones gubernamentales (por ejemplo, el Instituto Nacional de Estadı́sticas o el
Banco Central) o instituciones internacionales. Se almacenan en archivos con diferentes extensiones:
.data, .csv, .sav, .dta, .mdb,.sql, etc. En internet hay muchı́simos repositorios de
datos. Algunos de éstos son:

• https://archive.ics.uci.edu/ml/datasets.php

• https://www.nber.org/research/data

• https://si3.bcentral.cl/siete/

• https://www.ine.gob.cl/

7
• https://vincentarelbundock.github.io/Rdatasets/

• https://dataverse.harvard.edu/

• https://catalog.data.gov/dataset

• https://datasetsearch.research.google.com/

2 Modelo de Regresión Lineal


Al introducir el modelo general (6) en la sección (1) adelantamos que la función de predicción g no
es conocida. Nos preocuparemos del caso en que la variable explicada Y es una variable cualitativa
continua, de modo que nos enfrentamos propiamente a un problema de regresión.
~ es una función que de-
En primer lugar, haremos la suposición de que función de regresión g(X)
pende linealmente de un conjunto parámetros.

Supuesto 1. La función de regresión depende linealmente de un conjunto de p = d + 1


parámetros.

~ = β0 + β1 X1 + β2 X2 + . . . + βd Xd .
g(X) (14)

Los “betas” son los parámetros del modelo. Al parámetro β0 se le dice parámetro de intercepto
(intercept parameter), mientras que a los parámetros restantes β1 , . . . , βd se les dice parámetros de
pendiente (slope parameters). La cantidad de parámetros (p) es igual al número de variables (d)
más 1, debido al parámetro de intercepto (si no hubiera parámetro de intercepto entonces p = d).
~ el modelo (6) se escribe del modo descrito a continuación.
Habiendo definido g(X),

Definition 2.1 (Modelo de regresión lineal).

Y = β0 + β1 X1 + β2 X2 + . . . + βd Xd + ε. (15)

Bajo el supuesto (14), notemos que la función de regresión puede escribirse del siguiente modo:
 
β0
β 
 
   1
~ = 1 X1 X2
g(X) . . . Xd · β2  .
 
(16)
 . 
 .. 
 
βd

~ = (X1 X2 . . . Xd )> .
Recordar que en la expresión (1) definimos al vector de variables explicativas como X
La ecuación (16) nos motiva a redefinir el vector de variables explicativas de modo similar a cómo

8
lo hicimos inicialmente, pero incluyendo ahora un 1 en la primera posición. Además, nos conviene
agrupar todos los parámetros en un vector de parámetros β. ~ De este modo, definimos
   
1 β0
X1  β1 
   
   
~
X = X2  ,
  ~
β = β2  .
 
(17)
 .   . 
 ..   .. 
   
Xd βd

Con esta redefinición del vector de variables explicativas y definición de β~ podemos escribir la
función de regresión (16) y el modelo lineal (15) de forma vectorial,

~ = X
g(X) ~ > · β,
~ (18)
~ > · β~ + ε.
Y = X (19)

Las expresiones (18) y (19) son únicamente una manera más compacta de escribir (16) y (15),
respectivamente. Es muy importante tener claro que, aún cuando bajo el supuesto (14) sabemos
“algo” acerca de la función de regresión, ésta todavı́a no es completamente conocida. Esto se debe
a tres motivos;
~
1. no sabemos cuáles son las d variables explicativas que deben ir en X,

2. no sabemos si la variable explicada debe ser transformada o no, y

3. desconocemos el valor de los parámetros.

Responder a los dos primeros puntos constituye la especificación de la forma funcional del
modelo. El tercer problema se enfrenta estimando los parámetros en base a un set de datos. Hay
varios métodos de estimación. Nosotros emplearemos el método de estimación por mı́nimos
cuadrados.
El tema de la especificación de la forma funcional lo veremos más adelante. Por el momento, sin
embargo, consideremos un breve ejercicio para ilustrar el problema. Suponga que a usted le interesa
construir un modelo para estudiar la demanda D de un commodity. Sean P , Ps e I el precio del
commodity, el precio de un commodity sustituto y el ingreso de los consumidores, respectivamente.
Algunos posibles modelos de demanda se presentan a continuación.

Y = β0 + β1 P + ε, (d = 1) (20)
ln(Y ) = β0 + β1 ln(P ) + ε, (d = 1) (21)
Y = β0 + β1 P + β2 I + β3 Ps + ε, (d = 3) (22)
2
Y = β0 + β1 P + β2 I + β3 I + β4 Ps + ε, (d = 4) (23)
ln(Y ) = β0 + β1 P + β2 I + β3 Ps + ε, (d = 3) (24)
1
Y = β0 + β1 + β2 P · P s + ε. (d = 2) (25)
P

9
Notar que todos los modelos anteriores respetan la suposición (14), pues todos dependen linealmente
de un conjunto de parámetros. Por ejemplo, el modelo (23) es un modelo con d = 4 variables
explicativas; X1 = P , X2 = I, X3 = I 2 , y X4 = Ps , y por lo tanto se ajusta a la estructura
Y = β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + ε (modelo con p = 5 parámetros). El modelo (25) es un
modelo con d = 2 variables explicativas; X1 = 1/P y X2 = P · Ps . Por lo tanto se ajusta a un
modelo de p = 3 parámetros, Y = β0 + β1 X1 + β2 X2 + ε. El modelo (20) es un modelo con una
variable explicativa, al igual que el modelo (21). Por lo tanto, ambos se ajustan a la estructura
β0 + β1 X1 + ε (p = 2 parámetros). Por último, notar que en los modelos (21) y (24) la variable Y ha
sido transformada, lo cual es también perfectamente válido (en esos casos, en realidad, la variable
explicada serı́a el logaritmo de la demanda).
¿Cuál de todos los modelos es el modelo de demanda correcto? Para ayudar a responder a esta
pregunta existen diversos métodos, algunos de los cuales veremos más adelante. También, será útil
tener una cierta intuición acerca de cuál podrı́a ser la forma funcional correcta. En cualquier caso,
por el momento, asumiremos que la forma funcional viene dada. Sin embargo, es importante aclarar
desde ya que la incorrecta especificación de la forma funcional acarrea problemas que comentaremos
al estudiar el tema.
Si contamos con un set D formado por N datos, podemos aplicar el modelo lineal (19) a cada dato,
esto es,

~ > · β~ + ε1 ,
Y1 = X 1
Y2 = X2> · β~ + ε2 ,
~
..
.
YN ~ > · β~ + εN .
= X (26)
N

Usando los vectores (7) y (13), el modelo lineal aplicado a un conjunto de N datos se puede escribir
de modo compacto,

~ = X · β~ + ~ε.
Y (27)

Notar que X es una matriz de regresión aumentada,

~
 > 
X 1 X11 X12 ... X1d

1
 ~ > 
X2  1 X21 X22 ... X2d 

X=
 ..  =  ..
  .. .. ..
 (28)
 .  . . . . ... 

~>
X 1 XN 1 XN 2 . . . XN d
N

Esta matriz es similar a la matriz de regresión (9) introducida en la sección (1). La única diferencia
es que la primera columna contiene ahora un conjunto de 1’s (debido a la redefinición del vector de
variables explicativas).
Por último, y a modo de resumen, agrupamos algunas de las expresiones vistas en este capı́tulo en
el cuadro a continuación.

10
Función de regresión lineal ~ =X
g(X) ~ > · β~
Modelo de regresión lineal Y =X ~ · β~ + ε
>

Modelo de regresión lineal aplicado al i-ésimo dato Yi = Xi> · β~ + εi


~
Modelo de regresión lineal aplicado a N datos ~ = X · β~ + ~ε
Y

Función de regresión lineal ~ = β0 + β1 X1 + β2 X2 + . . . + βd Xd


g(X)
Modelo de regresión lineal Y = β0 + β1 X1 + β2 X2 + . . . + βd Xd + ε
Modelo de regresión lineal aplicado al i-ésimo dato Yi = β0 + β1 Xi1 + β2 Xi2 + . . . + βd Xid + εi
Y1 = β0 + β1 X11 + β2 X12 + . . . + βd X1d + ε1
Y2 = β0 + β1 X21 + β2 X22 + . . . + βd X2d + ε2
Modelo de regresión lineal aplicado a N datos ..
.
YN = β0 + β1 XN 1 + β2 XN 2 + . . . + βd XN d + εN

Table 4: Función de regresión lineal y modelo de regresión lineal, con notación vectorial (cuadro superior)
y sin notación vectorial (cuadro inferior). Recordar que X es la matriz de regresión aumentada (28) y que
~ es el vector de variables explicativas (17).
X

3 Estimación de parámetros
3.1 Función de regresión muestral
Asumimos que la forma funcional del modelo lineal ha sido especificada. Es decir, consideramos el
modelo

~ > · β~ +ε,
Y = β0 + β1 X1 + . . . + βd Xd +ε = X (29)
| {z } | {z }
~
g(X) ~
g(X)

asumiendo que sabemos perfectamente cuál es la variable Y y cuáles son los d regresores; X1 , . . .,
~
Xd . ¿Significa esto que ya conocemos perfectamente la función g(X)? No, pues desconocemos los
verdaderos valores de los parámetros. Por lo tanto, tendremos que estimarlos usando un set de
datos. A dicho conjunto de datos lo llamaremos set de entrenamiento y lo denotaremos con
T . En otras palabras, vamos a “entrenar el modelo” para construir las “mejores” estimaciones
posibles de los parámetros. Es importante aclarar que se trata de estimaciones y, por lo tanto,
nunca conoceremos el verdadero valor de los parámetros. Ası́, es conveniente introducir la siguiente
definición.

Definition 3.1 (Función de regresión muestral).

~
~ > · β̂.
~ = β̂0 + β̂1 X1 + β̂2 X2 + . . . + β̂d Xd = X
ĝT (X) (30)

Notar que la función de regresión muestral tiene la misma forma que (14), (16) y (18). La única
diferencia es que la función depende ahora de las estimaciones de los parámetros; β̂0 , β̂1 , . . ., β̂d .
Por eso, usamos el sı́mbolo ĝ. Además, para indicar que las estimaciones fueron construidas en
base a un set de entrenamiento T , agregamos el correspondiente subı́ndice y escribimos ĝT . Notar

11
~
también que el vector β̂ es análogo a (17) pero incluye ahora a las estimaciones y no los verdaderos
parámetros,
 
β̂0
~ β̂1 
 
 ..  .
β̂ =   (31)
 . 
β̂d

De esta manera, la variable Y se escribe ahora

Y ~ > · β̂~ + ε̂,


= X (32)
Y = β̂0 + β̂1 X1 + β̂2 X2 + . . . + β̂d Xd + ε̂, (33)

es decir, como la suma de una predicción (pero ahora usando la función muestral) y un término
adicional, ε̂, llamado residuo, y que describe el efecto de las variables no observadas que afectan al
regresando. Compare las expresiones (32) y (33) con (19) y (15), respectivamente. Debiese notar
que el error (ε) es la diferencia entre Y y la predicción g(X). ~ En cambio, el residuo (ε̂) es la
~
diferencia entre Y y la predicción ĝT (X). El error nunca será conocido pues los “verdaderos betas”
(los parámetros que definen a la función de predicción) son desconocidos. El residuo sı́ puede ser
conocido, una vez que hayamos construido la función de regresión muestral y la podamos comparar
con Y .
Si tenemos un set de datos, podemos aplicar la ecuaciones (32) y (33) al i-ésimo dato,

~ > · β̂~ + ε̂i ,


Yi = X (34)
i
Yi = β̂0 + β̂1 Xi1 + β̂2 Xi2 + . . . + β̂d Xid + ε̂i . (35)

La primera ecuación es análoga a cualquiera de las ecuaciones en (26). La segunda, análoga a la


tercera ecuación de la tabla resumen (4).
Finalmente, si tenemos un set de N datos, podemos escribir una expresión análoga a (27), esto es,

~ = X · β̂~ + ~ε̂,
Y (36)

en donde, de modo similar a (13), utilizamos el vector de residuos,


 
ε̂1
ε̂
 
~ε̂ =  .2  .
 
 .  (37)
 . 
ε̂N

~
Antes de describir cómo calcularemos β̂ en base a un set de datos T , es conveniente introducir
ciertos conceptos que serán útiles al describir el método de estimación.

12
3.2 Espacio columna de una matriz y norma de un vector
Consideremos la multiplicación A~v , en donde A es una matriz de cualquiera (digamos, de dimensión
n×m) y ~v es un vector cualquiera (de m filas). En particular, consideremos el ejemplo a continuación.
! ! ! ! !
1 1 x x+y 1 1
= =x +y , x ∈ R , y ∈ R. (38)
1 2 y x + 2y 1 2

Notar que el resultado es la suma de dos términos. Como se describe en la figura (1), el primer
término pertenece a la recta C1 , generada por la primera columna de la matriz. El segundo término
pertenece a la recta C2 , generada por la segunda columna de la matriz. De este modo, es fácil
ver que “sean cuáles sean los valores de x e y”, el resultado A~v estará en la región comprendida
entre ambas rectas, achurada en la figura (1). A dicha región, es decir, al espacio generado por las
columnas de una matriz A, le diremos el espacio columna de la matriz A y lo denotaremos con
C(A).

Figure 1: El espacio columna de la matriz A. El resultado A × ~x cae en la región achurada para cualquier
valor de x, y.

Por otra parte, si consideramos un vector cualquiera


 
v1
 v2 
 
~v = 
 ..  ,
 (39)
 . 
vm
diremos que el cuadrado de su norma es
 
v1
   v2  N
||~v ||2 = ~v > · ~v = v1 v2 . . . vm · 
X
 = v2 + v2 + . . . + v2 = vi2 .
 
.. 1 2 m (40)
.
 
  i=1
vm

13
Ası́, por ejemplo, el cuadrado de la norma del vector ~v = (1 2 3)> es ||~v ||2 = 1 + 4 + 9 = 14.
Podemos pensar en la norma como una medida del “largo del vector”.

3.3 Método de mı́nimos cuadrados


Supongamos que contamos con un set de N datos, T , al cual (como hemos adelantado) llamaremos
set de entrenamiento. Comenzamos planteando la ecuación (36) para los N datos,

~ = X · β̂~ + ~ε̂
Y ⇒ ~ε̂ = Y
~
~ − X · β̂. (41)

~
La idea será escoger el vector β̂ de modo tal que los “residuos sean lo más pequeños posibles”. Es
decir, formalmente, queremos elegir los estimadores de manera que el cuadrado de la norma del
vector de residuos, ||~ε̂||2 , sea la menor posible. Al cuadrado de la norma del vector de residuos le
diremos la suma de los cuadrados de los residuos (RSS, del inglés residual sum of squares),

N
RSS = ||ε̂||2 = ~ε̂> · ~ε̂ =
X
ε̂2i . (42)
i=1

~
~ y el vector X · β̂.
De la ecuación (41) es claro que el residuo es la diferencia entre el vector Y
Este último es un vector que “vive” en el espacio columna de la matriz de regresión X. Es decir,
~
utilizando la notación aprendida anteriormente, podemos decir que Xβ̂ ∈ C(X) para cualquier
~
vector de estimaciones β̂. Geométricamente, esto se ilustra en la figura (2).

Figure 2: Método de mı́nimos cuadrados: elegir el vector de estimaciones de manera que los residuos del
set de entrenamiento (RSS) sean los más pequeños posible (su norma).

14
A partir de la representación geométrica, se puede ver que el vector de residuos tendrá el menor largo
~
posible (es decir, la menor norma) cuando el vector X · β̂ coincida con la proyección ortogonal
~ . Por lo tanto, planteamos
del vector Y

~
~ = X · β̂.
PY (43)

La matriz P es una matriz que proyecta de forma ortogonal en el espacio columna de la matriz
X. A este “mecanismo” para encontrar los estimadores se le conoce como método de mı́nimos
cuadrados. Se le atribuye al matemático alemán Carl Gauss y al matemático francés Adrien–Marie
Legendre (Plackett, 1972).
La matriz de proyección en el espacio columna de la matriz de regresión es

P = XX+ . (44)

A su vez, la matriz X+ es la matriz pseudo–inversa de la matriz de regresión. Si las columnas de


la matriz de regresión son linealmente independientes (es decir, si ninguna columna de la matriz se
puede obtener combinando linealmente el resto de las otras columnas), entonces la matriz pseudo–
inversa es

X+ = (X> X)−1 X> . (45)

Insertando la ecuación (44) en (43) obtenemos

~
~ = X · β̂,
XX+ Y (46)

de donde es claro que la solución a la ecuación (43) es

~ ~.
β̂ = X+ Y (47)

Consecuentemente, para encontrar los estimadores que minimizan “el largo” del vector de residuos
del set de entrenamiento T , basta con multiplicar la matriz pseudo–inversa de X por el vector de
respuestas Y~.

Los estimadores de mı́nimos cuadrados también se pueden encontrar resolviendo las ecuaciones
normales. En efecto, si multiplicamos la ecuación (43) a ambos lados por X> obtenemos

~
X> PY
~ = X> X · β̂.

Como X> P = (PX)> = X> , podemos escribir la ecuación anterior de la forma

~
X> Y
~ = X> X · β̂. (48)

A este conjunto de ecuaciones se le llama ecuaciones normales. Su resolución conduce a (47).

15
3.4 Propiedades algebraicas de los estimadores de mı́nimos cuadrados
En esta sección demostraremos un conjunto de (5) propiedades que satisfacen los estimadores de
mı́nimos cuadrados. La mayorı́a de estas propiedades se cumple cuando el modelo tiene un término
de intercepto.

Primero, establezcamos la notación


      
1 X11 X12 ... X1d β̂0 β̂0 + β̂1 X11 + β̂2 X12 + . . . + β̂d X1d Ŷ1
~

 1 X21 X22 ... X2d  β̂1   β̂0 + β̂1 X21 + β̂2 X22 + . . . + β̂d X2d
  
  Ŷ2 
  
~
Xβ̂ = 
 .. .. .. ..  .  = 
..     ..  =  .  = Ŷ.(49)
  . 
. . . . .   ..   .   . 
1 XN 1 XN 2 . . . XN d β̂d β̂0 + β̂1 XN 1 + β̂2 XN 2 + . . . + β̂d XN d ŶN

~ = Xβ̂~ + ~ε̂ = Ŷ
Es decir, Y
~
+ ~ε̂ (la variable Y es la suma de la predicción y el residuo). De las
ecuaciones normales (48) es fácil notar que

~
X> (Y
~ − Ŷ ) = 0 ⇒ X> ~ε̂ = 0.

Matricialmente,
 
N
P
 ε̂i 
   i=1 
1 1 ... 1   N   
ε̂1 0
P
X ε̂

X11 i1 i
X21 . . . XN 1 
   
i=1
 

X
  
ε̂ 2 
N
 0
 
X22 . . . XN 2 
 
 12 =  P Xi2 ε̂i   ..  .
= (50)
  .    
 . .. .. ..  .
 . 
 
.
 ..
  
. . .  i=1 

ε̂N N ×1 
 .. 
0
X1d X2d . . . XN d p×N  . 

N 
P
Xid ε̂i

i=1 p×1

La primera ecuación (válida cuando la regresión tiene término de intercepto) nos dice que la suma
de los residuos es cero. Las d ecuaciones restantes nos dicen que no existe correlación entre
cada una de las variables explicativas y la serie de los residuos. Por lo tanto, para la serie
de N residuos {ε̂1 , ε̂2 , . . . , ε̂N }, existen p = d + 1 ecuaciones. Luego, los residuos tienen N − p grados
de libertad (GL), esto es, podemos elegir libremente N − p residuos y los restantes se fijan por las
p ecuaciones.

Notar además que

~
~ε̂> Ŷ ~
= ~ε̂| >{zX} β̂ = 0, (51)
0

es decir, no hay correlaciones entre la serie de predicciones y la serie de residuos.

16
~
~ = X> Ŷ
Las ecuaciones normales X> Y son
   
1 1 ... 1   1 1 ... 1  
Y1 Ŷ1
X11 X21 . . . XN 1  X X21 . . . XN 1 
   
 11
  
 Y2   Ŷ2 
    
X
 12 X22 . . . XN 2  =  12 X22
X . . . XN 2 
  .. 
    . 
 .  .
 . .. .. ..  .  . .. .. ..   . 
 .. . . . 
   .. . . . 
YN N ×1 ŶN N ×1
  
X1d X2d . . . XN d p×N X1d X2d . . . XN d p×N

La primera ecuación nos dice que

Y1 + Y2 + . . . + YN = Ŷ1 + Ŷ2 + . . . + ŶN ⇒ Y = Ŷ . (52)

Por lo tanto, la media de Y coincide con la media de las predicciones. Si en lugar de escribir
~ ~
Ŷ escribimos Xβ̂, las ecuaciones normales se pueden expresar como
   
1 1 ... 1   1 1 ... 1  
 Y1 β̂0 + β̂1 X11 + β̂2 X12 + . . . + β̂d X1d
X11 X21 . . . XN 1   X11 X21 . . . XN 1 
  
 Y2    β̂0 + β̂1 X21 + β̂2 X22 + . . . + β̂d X2d 
 
X
 12 X22 . . . XN 2  X
 . 

= 12 X22 . . . XN 2   .. .
.

 . .. .. . . . .. .. . .

 .. ..   .. .. 
  
. .
   
. .
YN β̂0 + β̂1 XN 1 + β̂2 XN 2 + . . . + β̂d XN d
   
X1d X2d . . . XN d X1d X2d . . . XN d

La primera ecuación es
N
X N
X N
X
Y1 + Y2 + . . . + YN = N β̂0 + β̂1 Xi1 + β̂2 Xi2 + . . . + β̂d Xid .
i=1 i=1 i=1

Dividiendo a ambos lados por N se concluye que la la función de regresión muestral evaluada
en las medias de las variables explicativas produce la media de la variable explicada,
es decir,

Y = β̂0 + β̂1 X 1 + β̂2 X 2 + . . . + β̂d X d . (53)

4 Análisis de varianza y bondad de ajuste


4.1 Modelos anidados
Considere un modelo con d variables explicativas: X1 , X2 , . . . , Xd . Si tenemos N datos, sabemos
que la matriz de regresión es
 
1 X11 X12 ... X1d
1

X21 X22 ... X2d 

X= .
 .. .. .. ..
. . . .


1 XN 1 XN 2 . . . XN d

17
Sabemos también que, de acuerdo con el modelo de regresión lineal (36), el vector de observaciones
de Y es la suma de un vector de predicciones y un vector de residuos,

~ = Xβ̂~ + ~ε̂ = Ŷ
Y
~ ~
+ ε̂. (54)

A este modelo, con d regresores, le diremos modelo principal. El vector de estimaciones de los
p = d + 1 parámetros ha sido obtenido por minimización de cuadrados. Por lo tanto, es claro que

~ = Xβ̂~ ⇒ β̂~ = X+ Y
PY ~.

Como hemos visto en el capı́tulo (3), la matriz P proyecta ortogonalmente en C(X) y X+ es la


matriz pseudo inversa de X.
Ahora, suponga que tenemos un modelo idéntico al anterior, pero con solo con las primeras k
variables explicativas; X1 , X2 , . . . , Xk , k < d. A este modelo le diremos modelo reducido. La
matriz de regresión es
 
1 X11 X12 ... X1k
1

X21 X22 ... X2k 
X(red)

= .
 .. .. .. ..
. . . .


1 XN 1 XN 2 . . . XN k

Es decir, la matriz X(red) está formada por las primeras k columnas de X. El modelo lineal será

~ = X(red) β̂~ (red) + ~ε̂(red) = Ŷ


Y
~ (red) ~(red)
+ ε̂ , (55)

en donde el vector de estimadores de los pred = k + 1 satisface

~ = X(red) β̂~ (red) ⇒ β̂~ (red) = X+(red) Y


P(red) Y ~.

Como sabemos, P(red) proyecta en C(X(red) ), y la matriz X+(red) es la pseudo inversa de la matriz
de regresión X(red) .
En ambos modelos, (54) y (55), la variable explicada es la misma. Además, es claro que la matriz
de regresión X(red) está “contenida” en X. Del mismo modo, el espacio columna de X(red) está
contenido dentro del espacio columna de X. Cuando esto ocurre, diremos que el modelo (55) está
anidado en el modelo (54). Gráficamente ambos modelos se representan en la figura (3). Utilizando
el teorema de Pitágoras, podemos plantear la ecuación

~ ~
k~ε̂k2 + kŶ − Ŷ (red) k2 = k~ε̂(red) k2 . (56)
| {z } | {z } | {z }
RSS ∗ RSSred

El primer término del lado izquierdo es el cuadrado de la norma del vector de residuos del modelo
principal. Como sabemos, dichos residuos tienen N − p grados de libertad. Este término es una
medida de la diferencia entre las predicciones hechas con el modelo principal y las observaciones de

18
Figure 3: En azul el modelo general. En verde el modelo reducido. El espacio columna de X es el plano
gris, mientras que el espacio columna de X(red) es la recta verde punteada.

la variable explicada. Más precisamente, es una medida de la volatilidad del efecto de las variables
no observadas al usar el modelo principal.
El término del lado derecho es el cuadrado de la norma del vector de residuos del modelo reducido.
Como sabemos también, dichos residuos tienen N − pred grados de libertad. De manera análoga
al caso anterior, este término es una medida de la diferencia entre las predicciones hechas con el
modelo reducido y los valores de Y , o más bien, una medida de la volatilidad de las variables no
observadas al emplear el modelo reducido, que tiene menos regresores.
Finalmente, el segundo término del lado izquierdo (*) es una medida de la diferencia entre las
predicciones del modelo principal y las predicciones del modelo reducido. Los grados de libertad de
este término son p − p1 , de modo que la suma de los grados de libertad del lado izquierdo sea igual
a los grados de libertad del lado derecho,

GLRSS + GL∗ = GLRSSred . (57)


~ ~
Note que si el término kŶ − Ŷ (red) k2 es pequeño, entonces el modelo principal no difiere mucho del
modelo reducido. En este caso, RSSred serı́a similar a RSS. En cambio, si es grande, entonces las
predicciones del modelo principal son muy diferentes a las del modelo reducido. Para evaluar de
manera más precisa qué significa “ser pequeño” o “ser grande”, podemos dividir la expresión (56)
por RSSred , obteniendo
~ ~
kŶ − Ŷ (red) k2 RSS
=1− . (58)
RSSred RSSred
Como RSS ≤ RSSred , la fracción del lado izquierdo se mueve entre 0 y 1. Será igual a 1 si RSS = 0,
es decir, si las predicciones del modelo principal son idénticas a la variable Y (ajuste perfecto a los

19
Modelo Suma de Cuadrados GL Suma Media de Cuadrados F
~ ~ ~ ~
Principal v/s Reducido kŶ − Ŷ red k2 p − pred kŶ − Ŷ red k2 /(p − pred ) (??) (??)/(?)
Principal RSS N −p RSS/(N − p) (?) –
Reducido RSSred N − pred RSSred /(N − pred ) –

Table 5: Tabla de análisis de varianza (ANOVA): permite comparar el modelo general versus el modelo
reducido.

datos). Será igual a 0 si las predicciones del modelo principal son idénticas a ls predicciones del
modelo reducido. Para evaluar si resulta conveniente trabajar con el modelo principal o el modelo
reducido se puede utilizar un tabla de análisis de varianza (5).

4.2 Coeficiente de determinación


Consideremos, como modelo reducido, un modelo sin variables explicativas (k = 0). Es decir, al
modelo
Y = β0 + ε.
En este caso, si contamos con N datos, la matriz de regresión es
 
1
1
 
(red)
X =
 .. 
 . (59)
.
1 N ×1

Es fácil mostrar (ver problema 8.2) que el estimador de mı́nimos cuadrados del parámetro de
intercepto es
(red) ~ =Y,
β̂0 = X+(red) Y
es decir, la media muestral de Y. Por lo tanto,
 
Y
Y 
 
~ (red) (red) (red) ~
Ŷ =X β̂0  ..  = Y .
= 
.
Y

Ası́, el término * en (56) resulta


N
~ ~ ~ ~ k2 = X(Y
~i − Y )2 ≡ ESS.
kŶ − Ŷ (1) k2 = kŶ − Y (60)
i=1

Esto muestra que el cuadrado de la norma de la diferencia entre la predicción del modelo principal y
la predicción del modelo sin regresores es simplemente la suma de los cuadrados de las desviaciones

20
de las predicciones del modelo principal con respecto a la media muestral. A esta cantidad le diremos
suma de cuadrados explicados, y la denotaremos con la sigla ESS (del inglés, explained sum of
squares). Es una medida de “cuánto más explica” el modelo principal que el modelo sin regresores.
Por otra parte, cuando el modelo reducido es el modelo sin regresores, es claro que
N
~ ~ −Y
= k ~ε̂(red) k2 = kŶ (red) − Y
~ k2 = kY ~ k2 =
X
RSSred (Yi − Y )2 ≡ TSS.
i=1

Esto es, la suma de los cuadrados de los residuos del modelo reducido (sin regresores) es simplemente
la suma de los cuadrados de las desviaciones de Y con respecto a su media. A esta cantidad le
decimos la variación total de Y o suma total de cuadrados, y la denotaremos con las siglas
TSS (del inglés, total sum of squares).
Ası́, la expresión (56) nos dice que

RSS + ESS = TSS. (61)

El primer término del lado izquierdo está asociado a la varianza o volatilidad de los residuos. El
segundo, se asocia a la volatilidad de las predicciones. El término del lado derecho se asocia a la
varianza de la variable Y en la muestra. Por otra parte, la expresión (58) resulta

ESS RSS
R2 ≡ =1− . (62)
TSS TSS
A la razón ESS/TSS= 1−RSS/TSS le diremos coeficiente de determinación y la denotaremos
con el sı́mbolo R2 . Es un porcentaje que nos dice que fracción de la variación total de Y en la
muestra es explicada con el modelo de regresión. Es fácil ver que R2 = 0 cuando ESS=0, es decir,
cuando el modelo explica lo mismo que un modelo sin regresores. Al contrario, R2 = 1 cuando
RSS=0, lo cual ocurre cuando las predicciones son idénticas a los verdaderos valores de Y (ajuste
perfecto a los datos del set de entrenamiento). En general, al trabajar con cortes transversales,
R2 superiores a 50% son considerados altos. Al trabajar con series de tiempo se suelen obtener
coeficientes de determinación más altos que en cortes transversales.
En el problema 9.4 se le pide demostrar que
N
X
ESS = (Ŷi − Y )(Yi − Y ).
i=1

Con esto, el coeficiente de determinación se puede expresar del siguiente modo:


N N N
(Ŷi − Y )(Yi − Y ) (Ŷi − Y )(Yi − Y ) (Ŷi − Y )(Yi − Y )
P P " P #2
ESS i=1 i=1 i=1
R2 = = N
× N
= s s . (63)
TSS N N
(Yi − Y )2 (Ŷi − Y )2
P P
(Ŷi − Y )2 (Yi − Y )2
P P
i=1 i=1 i=1 i=1
| {z }
1

21
Lo cual muestra que el coeficiente de determinación puede entenderse como el cuadrado de la
correlación entre las predicciones y las observaciones de Y .
Cuando el modelo de regresión tiene una sola variable explicativa es fácil demostrar que el coefi-
ciente de determinación es el cuadrado de la correlación entre la variable explicada Y y la variable
explicativa X1 . Se le pide demostrar esto en el problema 9.5.
Para comparar dos modelos en términos del coeficiente de determinación, la variable explicada en
ambos modelos debe ser la misma, y el tamaño del set de entrenamiento de ambos modelos debe
ser el mismo.
Por último, el R2 es no-decreciente en la medida que se incrementan las variables explicativas. Para
corregir este efecto resulta más conveniente utilizar el coeficiente de determinación ajustado,
denotado con R̄2 y definido según
RSS/(N − p)
R̄2 = 1 − . (64)
TSS/(N − 1)
Al aumentar la cantidad de regresores RSS disminuye (o queda igual), mientras que la fracción en el
numerador 1/(N − p) aumenta, es decir, “penaliza” la incorporación de más variables explicativas.
A diferencia del R2 , el coeficiente de determinación ajustado podrı́a ser menor a cero. En ese caso,
reportamos simplemente que R̄2 = 0.

5 Propiedades Estadı́sticas
5.1 Estimación Insesgada
Partimos observando que
~ ~ + ~ε) = X+ Xβ~ + X+ ~ε = β~ + X+ ~ε,
~ = X+ (Xβ
β̂ = X+ Y (65)
~
es decir, los estimadores de mı́nimos cuadrados β̂ se escriben como la suma de los “verdaderos”
parámetros y un término adicional, que depende de la matriz de regresión y de los errores. Notar
que en la derivación de este resultado hemos usado el supuesto (27), es decir, que el modelo es lineal.
Este resultado es útil para calcular el valor de expectación de los estimadores. En efecto, notemos
que

~ ~ + E(X+ ~ε) = β~ + E(X+ ~ε).


E(β̂) = E(β~ + X+ ~ε) = E(β) (66)
~
La expresión anterior nos dice que el valor esperado de β̂ es la suma de los “verdaderos parámetros”
y un término adicional, llamado sesgo. Veamos a continuación las condiciones que se requieren para
que dicho sesgo sea nulo, o sea, para que los estimadores de mı́nimos cuadrados sean insesgados.
Notar que

Z Z
+ +
E(X ~ε) = dXfX (X)E(X ~ε|X) = dXfX (X)X+ E(~ε|X). (67)

22
La función fX (X) denota la densidad de probabilidades de todas las observaciones de todos los
regresores (que hemos asumido que son variables continuas; si no fuera el caso, entonces la integral
se reemplaza por una suma). Como el lector debiese saber, la matriz de regresión contiene N × p
variables, pues cada una de las d variables explicativas es observada N veces. Ası́, fX (X) es la
distribución multivariada de N × d variables. Por otra parte, E(~ε|X) denota el valor esperado del
vector de errores condicionado en las N observaciones de los d regresores. Para que la estimación
sea insesgada debemos asumir que este término sea cero.

Supuesto 2. Los regresores son estrictamente exógenos.

E(~ε|X) = 0. (68)

Si este supuesto se cumple, diremos que las variables explicativas son estrictamente exógenas.
Conceptualmente, esto quiere decir que ninguno de los errores (ε1 , ε2 , . . . , εN ) tiene alguna forma
de correlación con las N observaciones de los d regresores. Es importante que el lector comprenda
esta esta idea.

Ejemplo 5.1. Para ilustrar el concepto consideremos el siguiente ejemplo. Suponga que la variable
“Asesinatos” representa la tasa de homicidios en una ciudad, durante un cierto año. Asuma –
además– que dicha variable será explicada en términos de la variable “Policı́as”, la cual representa
el número de policı́as per capita en la ciudad. La relación entre ambas variables se describe a través
de un modelo de regresión lineal

Asesinatos = β0 + β1 Policı́as + ε.

La variable ε, como el lector sabe, contiene el efecto del resto de las variables que afectan la tasa de
homicidios, además del número de policı́as per capita. Por ejemplo, por mencionar alguna, el nivel
de actividad del narcotráfico. Suponga ahora que contamos con una serie de tiempo para N = 4
años, esto es,

Asesinatos1 = β0 + β1 Policı́as1 + ε1
Asesinatos2 = β0 + β1 Policı́as2 + ε2
Asesinatos3 = β0 + β1 Policı́as3 + ε3
Asesinatos4 = β0 + β1 Policı́as4 + ε4 .

¿El error del año 2 (por ejemplo, la “actividad del narcotráfico” del año 2) está correlacionada con el
número de policı́as per capita del año 2? Se podrı́a argumentar que no, pues la actividad de narco-
tráfico de ese año podrı́a no alcanzar a “reaccionar” al tamaño de las policı́as de ese mismo año.
Cuando eso ocurre, esto es, cuando el i-ésimo error (εi ) no tiene ninguna forma de correlación con
las i-ésimas observaciones de las variables explicativas (Xi1 , Xi2 , . . . , Xid ), diremos que los regresores
son contemporáneamente exógenos.

23
¿El error del año 2 (al igual que antes, pensemos en la “actividad del narcotráfico” del año 2)
podrı́a tener alguna forma de correlación con el número de policı́as per capita del año 1? Se podrı́a
argumentar que sı́. Por ejemplo, si la cantidad de policı́as del año 1 fue “alta”, se podrı́a esperar
que el narcotráfico del año siguiente sea “bajo”. Si ese fuera el caso, dirı́amos que el i-ésimo error
está correlacionado con observaciones pasadas de los regresores (Xj1 , Xj2 , . . . , Xjd , j < i). De modo
similar, el error del año 2 podrı́a tener alguna forma de correlación con las policı́as del año siguiente
(año 3). En efecto, se podrı́a esperar que, si el narcotráfico del año 2 fue “alto”, el número de
policı́as del año 3 será “alto” (es decir, ε2 afecta al futuro, Policias3 ). En este caso, el i-ésimo error
tendrı́a correlaciones con observaciones futuras de los regresores (Xj1 , Xj2 , . . . , Xjd , j > i).

El supuesto (68) establece que el error del periodo i no tiene alguna forma de correlación con
observaciones pasadas, contemporáneas y futuras de los regresores. Si bien hemos ilustrado el
concepto usando como ejemplo una serie de tiempo, en donde tiene sı́ sentido del hablar de pasado,
presente y futuro, el concepto se extiende de la misma manera a cortes transversales. En series de
tiempo, tı́picamente este supuesto es violado, mientras que en cortes transversales es más común
que se cumpla.

Para que la estimación sea insesgada se requiere que la exogeneidad se cumpla de modo estricto.
Sin embargo, para otras propiedades (como la consistencia) se requiere exogeneidad contemporánea,
que es una forma más débil del supuesto. Es necesario enfatizar que asumir que los regresores sean
estrictamente exógenos no impone ninguna restricción sobre las eventuales correlaciones que puedan
existir entre la serie de errores (ε1 , ε2 , . . . , εN ) o la serie de observaciones de la variable explicada
(Y1 , Y2 , . . . , YN ).

Por último, este supuesto implica que los errores tienen media cero. En efecto,
Z
E(~ε) = dXfX (X)E(~ε|X) = 0.

5.2 Varianza de los estimadores de mı́nimos cuadrados

Comenzamos calculando la varianza de los estimadores,

~ ~ ~ ~ ~>
 
Var(β̂) = E [β̂ − β] · [β̂ − β]
 
= E [X+ ~ε] · [X+ ~ε]>
 
= E X+ ~ε · ~ε> [X+ ]>
Z  
= dXfX (X)E X+ ~ε · ~ε> [X+ ]> X

Z  
= dXfX (X)X+ E ~ε · ~ε> X [X+ ]> . (69)

24
A la matriz de N × N
 
E(ε21 |X) E(ε1 ε2 |X) E(ε1 ε3 |X)
. . . E(ε1 εN |X)
 E(ε2 ε1 |X) E(ε22 |X) E(ε2 ε3 |X)
. . . E(ε2 εN |X)
 
  
E(ε23 |X)

E ~ε · ~ε X =  E(ε3 ε1 |X)
> E(ε3 ε2 |X) . . . E(ε3 εN |X) (70)


 .. .. .... .. 

 . . .. . 

E(εN ε1 |X) E(εN ε2 |X) E(εN ε3 |X) . . . E(ε2N |X)

le diremos matriz de covarianza de los errores. Como los errores tienen media cero, los términos en
la diagonal principal son las varianzas de ε1 , ε2 , . . . , εN . Los términos fuera de la diagonal son las
covarianzas entre los diferentes errores. Para seguir adelante haremos dos supuestos importantes.
En primer lugar, asumiremos que las varianzas de los errores son iguales.

Supuesto 3. Los errores son homocedásticos.

E(ε21 |X) = E(ε22 |X) = . . . = E(ε2N |X) = σ 2 . (71)

Ejemplo 5.2. Para ilustrar este concepto consideremos el modelo de regresión lineal simple,

Nota EME322 = β0 + β1 Estudio + ε,

en donde las variables “Nota EME322” y “Estudio” son la nota obtenida en el curso EME322 y
el tiempo (horas) de estudio semanal dedicado al curso, respectivamente. El término ε contiene el
resto de las variables que afectan el desempeño en el curso. Por ejemplo, por mencionar alguna, las
habilidades personales. Suponga –además– que obtendremos muestras de N = 4 personas, es decir,

Nota EME3221 = β0 + β1 Estudio1 + ε1


Nota EME3222 = β0 + β1 Estudio2 + ε2
Nota EME3223 = β0 + β1 Estudio3 + ε3
Nota EME3224 = β0 + β1 Estudio4 + ε4

Además, asuma que la matriz de regresión es


 
1 0
1 1
X= . (72)
 
1 2
1 3

Esto significa que, en todas las muestras, el primer alumno será una persona que estudia 0 horas/se-
mana, el segundo una persona que dedica 1 hora semanal al estudio, y ası́. En algunas muestras, las
habilidades del primer alumno (que no estudia) serán altas; en otras, serán bajas. Ası́, en repetidas

25
muestras, las habilidades del primer alumno de la lista (que no estudia) exhibirán una cierta volatil-
idad o dispersión. Si los errores son homocedásticos, dicha volatilidad será igual a la volatilidad de
las habilidades del segundo alumno de cada muestra (que estudia una hora), y también igual a la
volatilidad de las habilidades del tercer alumno (que estudia dos horas) y de la cuarta persona (que
estudia tres horas). Este comportamiento se ilustra en las figuras (4) y (5).

8
2.0 + 1.3 × Estudio

6
Nota EME322

0
0 0.5 1 1.5 2 2.5 3

Estudio

Figure 4: 25 muestras de tamaño N = 4 (N × 25 = 100 puntos). En todas las muestras, la matriz de


regresión es la matriz (72). Comportamiento homocedástico.

Si los errores no fueran homocedásticos, en cuyo caso diremos que exhiben heterocedasticidad,
entonces la varianza de las habilidades del primer alumno de cada muestra diferirán de la vari-
anza de las habilidades del segundo alumno de cada muestra, por ejemplo. El comportamiento
heterocedástico se ilustra en las figuras (6) y (7)

La segunda suposición importante es que los errores no tienen correlación entre sı́. Si esto ocurre
diremos no existe correlación serial o auto-correlación.

Supuesto 4. Ausencia de auto-correlación.

E(εi εj |X) = 0, ∀ i 6= j. (73)

En el ejemplo (5.2), si se cumple este supuesto, entonces las habilidades de los alumnos que no
estudian no estarı́an correlacionadas con las habilidades de los alumnos que estudian 1, 2 o 3 horas.
En el ejemplo (5.1), significarı́a no hay correlación entre el grado de narcotráfico de los distintos
años (1, 2, 3, y 4).

26
10 10
8 8

Frequency

Frequency
6 6
4 4
2 2
0 0
−2 0 2 −2 0 2 4
ε1 ε2
10 10
8 8
Frequency

Frequency
6 6
4 4
2 2
0 0
−2 0 2 4 −2 0 2 4
ε3 ε4

Figure 5: En 25 muestras, los residuos (ε1 , ε2 , ε3 , ε4 ) se distribuyen en torno 0 con la misma dispersión. En
todas las muestras, la matriz de regresión es la matriz (72).

2.0 + 1.3 × Estudio

15
Nota EME322

10

0
0 0.5 1 1.5 2 2.5 3

Estudio

Figure 6: 25 muestras de tamaño N = 4 (100 puntos). Comportamiento heterocedástico. En este caso, la


varianza aumenta conforme las horas de estudio aumentan. En todas las muestras, la matriz de regresión es
la matriz (72).

27
10 10
8 8

Frequency

Frequency
6 6
4 4
2 2
0 0
−2 −1 0 1 2 −4 −2 0 2 4
ε1 ε2
10 10
8 8
Frequency

Frequency
6 6
4 4
2 2
0 0
−5 0 5 10 −5 0 5 10
ε3 ε4

Figure 7: En 25 muestras, los residuos (ε1 , ε2 , ε3 , ε4 ) se distribuyen en torno 0 con dispersión creciente
con el ı́ndice. En todas las muestras, la matriz de regresión es la matriz (72).

Si los supuestos (71) y (73) son válidos, es claro que la matriz de covarianza (70) se puede escribir
como
   
σ2 0 0 ... 0 1 0 0 ... 0
 0 σ2 0 ... 0 0 1 0 ... 0
   
 
   
2

E ~ε · ~ε> X =  0 0 σ ... 0 2 0 0 1 . . .
=σ  0  = 1σ 2 (74)

 . .. .. .. ..  . . . . .. 
 .. . . . .  .. .. .. .. .
   
0 0 0 . . . σ2 0 0 0 ... 1

Por lo tanto, la varianza de los estimadores (69) resulta


Z Z
~
h i
+ >
Var(β̂) = σ 2 +
dXfX (X)X [X ] = σ 2
dXfX (X)(X> X)−1 = σ 2 E (X> X)−1 . (75)

Esta expresión nos dice que, cuando la matriz de regresión es X, la varianza de los estimadores es
~
Var(β̂|X) = (X> X)−1 σ 2 . (76)

Ejemplo 5.3. Considere la regresión de la nota (Y ) en el tiempo de estudio (X1 ), medido en


horas/semana, Y = β0 + β1 X1 + ε. Considere el set de entrenamiento T , formado por N = 3
personas. Asumiendo que todos los supuestos vistos hasta ahora son válidos, calcule los estimadores
de mı́nimos cuadrados, la varianza de cada uno de los estimadores y la covarianza entre ambos.
Exprese las varianzas y covarianza en términos de la varianza de los errores homocedásticos σ 2 .

28
ID Y X1
1 3.0 1
1 3.8 2
1 5.0 3

Table 6: Set de N = 3 datos T .

5.3 Teorema de Gauss-Markov


5.4 Estimación de la varianza de los errores (σ 2 )
5.5 Normalidad de errores

6 Ejercicios Capı́tulo 1
Ejercicio 6.1. En economı́a laboral, la ecuación de Mincer (Mincer, 1974) regresa el logaritmo
(natural) de los ingresos de un individuo (Y ) sobre los los años de experiencia laboral (X1 ), el
cuadrado de los años de experiencia laboral (X2 ) y los años de educación (X3 ). Por lo tanto,
X~ = (X1 , X2 , X3 )> . a) Explique qué tipo de variable son los regresores y el regresando del modelo.
b) Por las complejidades para medir y comparar los años de educación entre diferentes individuos,
asuma que se considera el máximo nivel de educación alcanzado, el cual se clasifica en 4 tipos:



sin educación secundaria

educación secundaria

.


educación universitaria (licenciatura)


postgrado (magı́ster y/o Phd)

Explique qué tipo de variable es ahora la variable educación. c) Bajo este esquema, para modelar
la educación se definen las siguientes 3 variables explicativas:
 
1 si tiene educación secundaria, 1 si tiene educación universitaria,
X3 = X4 =
0 en otro caso. 0 en otro caso.

1 si tiene postgrado,
X5 = (77)
0 en otro caso.

Usted encuesta a N = 4 personas. La primera percibe ingresos de 10 USD/hora, tiene 4 años de


experiencia laboral y su máximo nivel de educación es una licenciatura. La segunda persona percibe
ingresos de 9.5 USD/hora, tiene 3 años de experiencia laboral y no tiene educación secundaria.
La tercera persona recibe ingresos de 11.7 USD/hora, tiene 5 años de experiencia y cuenta con
un magı́ster. La cuarta persona encuestada percibe ingresos de 14.3 USD/hora, tiene 5 años de
experiencia laboral y su máximo nivel de educación es la educación secundaria. Escriba la tabla de

29
datos (3) asociada a esta encuesta. Luego escriba, por separado, la matriz de regresión X. ¿Si se
vuelve a tomar la encuesta cambia la matriz de regresión?

Ejercicio 6.2. ¿Cual es el modelo general que describe la relación entre el vector de variables
~ y la variable explicada Y ? Escriba el modelo y explique sus componentes.
explicativas X

Ejercicio 6.3. ¿Cuál es la diferencia entre una función de regresión y una función de clasificación?
Explique y mencione un par de ejemplos que ilustren la diferencia.

Ejercicio 6.4. A usted le interesa estudiar la producción Y de un terreno (kg/ha) en términos de


la cantidad de fertilizante (X1 ) aplicado. Hay tres tipos de “dosis”. La primera consiste en aplicar
50 kg/ha. La segunda dosis en aplicar 30 kg/ha, y la tercera dosis consiste en aplicar 10 kg/ha.
Considere dos escenarios. i) Usted dispone de un gran terreno de 900 ha de superficie. Divide su
terreno en 90 terrenos más pequeños, cada uno de 10 ha. Dichos terrenos son agrupados aleato-
riamente en 3 grupos. A los terrenos del grupo 1 le aplica la dosis 1, a los del grupo 2 la dosis
tipo 2 y a los terrenos del grupo 3 le aplica la dosis 3. ii) Suponga ahora que usted cuenta con 30
terrenos (cada uno de 10 ha) ubicados en el norte de Chile, 30 terrenos (de 10 ha cada uno) en la
zona central y 30 terrenos (cada uno de 10 ha) ubicados en el sur. A los terrenos del norte le aplica
la dosis 1, a los del centro la dosis 2 y a los del sur la dosis tipo 3.
Diremos que un regresor puede considerarse exógenos cuando no existe ninguna forma de correlación
entre éste y el término de error. Analice cada escenario, explicando si X1 puede considerarse exógeno
y si el experimento permitirı́a estimar el efecto ceteris paribus de la cantidad de fertilizante sobre
la producción.

Ejercicio 6.5. La tasa de asesinatos de una ciudad (Y ) se estudia en términos del número de
policı́as per capita (X1 ). Por lo tanto, el vector de variables explicativas está formado por d = 1
regresores, X ~ = (X1 ). Usted cuenta con N = 18 datos, que describen la evolución de las variables
~ Y ) en el tiempo: el dato i = 1 representa al año 2005, i = 2 al año 2006 y ası́ hasta el dato
(X,
i = 18 (que representa al año 2022). Para este conjunto de datos, usted plantea el modelo general
(6), esto es,

~ 1 ) + ε1 ,
Y1 = g(X
~ 2 ) + ε2 ,
Y2 = g(X
..
.
~ 18 ) + ε18 .
Y18 = g(X

¿Qué tipo de datos constituye su muestra? ¿Cree usted que podrı́a existir alguna correlación entre
~ j = (Xj1 ) (la j-ésima observación de la variable X1 , es decir, el
εi (el error del i-ésimo año) y X
número de policı́as per capita durante el j-ésimo año). Explique.

Ejercicio 6.6. Considere la matriz de regresión X. Explique en que contexto la matriz cambia si
se vuelven a generar los datos.

30
Ejercicio 6.7. Usted quiere estudiar la corriente Y que circula a través de un objeto, en base a
las variables explicativas X1 (voltaje aplicado sobre el objeto), X2 (largo del objeto) y X3 (área
transversal del objeto). La corriente se mide en ampere (A), el voltaje en volts (V ), el largo en
centı́metros (cm) y el área en cm2 . Primero, usted aplica un voltaje de 10 V sobre un objeto de 5
cm y 25 cm2 , registrando una corriente de 1 A. Luego, un voltaje de 10 V sobre un objeto de 10
cm y 25 cm2 , registrando una corriente de 0.5 A. Finalmente, un voltaje de 20 V sobre un objeto
de 10 cm y 40 cm2 , registrando una corriente de 0.25 A. Escriba la matriz de regresión. ¿Cambia
dicha matriz si se vuelve a repetir el experimento? En otras palabras, ¿las variables X1 , X2 y X3
son variables aleatorias?

Ejercicio 6.8. Suponga que estudiará la nota de econometrı́a de un individuo (Y ) en términos de


las variables X1 (promedio de horas de estudio por semana) y X2 (promedio de horas de descanso por
semana). Para definir la función de regresión usted recopila información acerca de N = 4 individuos.
El primer individuo obtuvo nota 5.0, estudió 2.5 horas/semana y descansó 42 horas/semana. El
segundo, obtuvo nota 5.5, estudió 3.2 horas/semana y descansó 40.1 horas/semana. El tercero
individuo de la muestra obtuvo nota 3.5, estudió 0.5 horas/semana y descansó 39.6 horas/semana.
Finalmente, el cuarto obtuvo nota 7.0, estudió 7.5 horas/semana y descansó 38.6 horas/semana.
Escriba la matriz de regresión. ¿Las variables X1 y X2 son variables aleatorias?

Ejercicio 6.9. ¿Qué es una serie de tiempo y qué es un corte transversal? Explique y mencione
un par de ejemplos que ilustren la diferencia.

7 Ejercicios Capı́tulo 2
Ejercicio 7.1. Sea Y el logaritmo natural de la demanda D de un cierto commodity (variable
~ =X
explicada). Considere la función de regresión lineal g(X) ~ en donde el vector de variables
~ > β,
~ y el vector de parámetros β~ respectivamente son
explicativas X
   
1 1
~
X =  ln(P ) 
  ~
β = −0.5 .
 

ln(Ps ) 1.1

La variable P es el precio del commodity y la variable Ps el precio de un sustituto.

De acuerdo a este modelo, ¿cuál serı́a la variación porcentual de la demanda si el precio aumenta
en 1% y el resto de las variables se mantienen fijas? La demanda, ¿se comporta de modo elástico o
in-elástico? ¿Cuál serı́a la variación porcentual si el precio del sustituto se incrementa en 1%? La
elasticidad cruzada de la demanda, ¿resulta menor o mayor a 1? Nota: Considere la aproximación
(1 + a)b ≈ 1 + ba, válida cuando |a|  1.
~ sin notación vectorial, esto es,
Solución.- Partimos escribiendo la función de regresión g(X)
 
 1 
~ ~ >~
g(X) = X β = 1 ln(P ) ln(Ps ) −0.5 = 1 − 0.5 ln(P ) + 1.1 ln(Ps ).
 

1.1

31
De esta manera, el modelo lineal propuesto es

ln(D) = 1 − 0.5 ln(P ) + 1.1 ln(Ps ) + ε. (78)


Si aumentamos el precio P en 1%, es decir, el nuevo precio será P (1 + 0.01), y el resto de las
variables explicativas y el término de error se mantienen fijos, obtenemos
ln(D0 ) = 1 − 0.5 ln[P (1 + 0.01)] + 1.1 ln(Ps ) + ε. (79)
Restando la ecuación (78) a (79), obtenemos
ln(D0 ) − ln(D) = −0.5 ln[P (1 + 0.01)] + 0.5 ln(P )
ln D0 /D

= −0.5 ln(1 + 0.1)
ln D0 /D = ln(1 + 0.01)−0.5


D0
= (1 + 0.01)−0.5 ≈ 1 − 0.5 × 0.01.
D
Ası́,
D0
− 1 = −0.005
D
D0 − D
= −0.005.
D
En consecuencia, la demanda disminuye en 0.5%. La elasticidad, , es el valor absoluto del cambio
porcentual de la demanda sobre el cambio porcentual del precio. Por lo tanto,

0.005
= = 0.5 (80)

0.01

Notar que la elasticidad es el valor absoluto del parámetro β1 . Como ε < 1 es claro que el commodity
se comporta de modo in-elástico. Para estudiar el comportamiento de la demanda con respecto al
precio del sustituto procedemos de modo análogo.
ln(D0 ) = 1 − 0.5 ln(P ) + 1.1 ln[Ps (1 + 0.01)] + ε. (81)
Restando la ecuación (78) a (81), obtenemos
ln(D0 ) − ln(D) = 1.1 ln[Ps (1 + 0.01)] − 1.1 ln(Ps )
ln D0 /D

= 1.1 ln(1 + 0.1)
ln D0 /D = ln(1 + 0.01)1.1


D0
= (1 + 0.01)1.1 ≈ 1 + 1.1 × 0.01.
D
Ası́,
D0 − D
= 0.011.
D
La elasticidad cruzada es 0.011/0.01 = 1.1 (el valor de β2 ), de modo que la demanda del commodity
es elástica con respecto a cambios de precio del sustituto.

32
Ejercicio 7.2. Considere el siguiente modelo de regresión lineal
~ > β~ + ε,
Y =X
en donde Y es el tiempo que un individuo tarda en correr una carrera de 10 km (medido en
minutos). El vector de variables explicativas es X ~ = (1 X1 X2 X3 )> , en donde el regresor X1
corresponde a las horas de entrenamiento diarias (D) del deportista, X2 es el cuadrado de las horas
de entrenamiento (X2 = D2 ), y X3 es la calidad promedio de la nutrición, la cual se evalúa con
nota del 1 al 7, siendo 1 la peor calidad y 7 la mejor calidad. Asuma que el vector de parámetros
es β~ = (50 − 10 2 − 1)> . Haga un gráfico de la variable Y versus la variable D, asumiendo que
el resto de las variables se mantienen fijas. Luego, calcule ∂Y /∂D. ¿El cambio marginal del tiempo
con respecto a las horas de entrenamiento es decreciente, constante o creciente? Posteriormente,
haciendo ∂Y /∂D = 0 encuentre las horas óptimas de entrenamiento diario, esto es, las horas de
entrenamiento diarias que minimizan el tiempo de carrera. Por último, si la calidad de la nutrición
se evalúa con nota 4.0, ¿cuál es el la predicción del tiempo mı́nimo que se demora el deportista en
terminar la carrera? ¿Cuál serı́a este tiempo si la calidad de la nutrición es 7.0?
Ejercicio 7.3. Usted está interesado en estudiar el efecto de un cierto tipo de fertilizante sobre la
producción de un terreno. Para ello define las siguientes variables:
Y = producción (kilos cosechados por hectárea),
X = cantidad de fertilizante aplicado (kilos por metro cuadrado)
La relación entre ambas variables será descrita a través del modelo de regresión lineal simple
Y = β0 + β1 X + ε.
Asuma que β0 = 4000 y β1 = 100.
a) Indique en cuánto cambiará la producción de un terreno si la cantidad de fertilizante aplicado
aumenta en 1 kg/m2 y el resto de las variables se mantienen fijas.
b) Prediga la producción de un terreno al que no se le aplica fertilizante y la producción de un
terreno al que se le aplican 2 kg/m2 . ¿Qué factores podrı́an hacer que la predicciones no sean
idénticas a la producción real? En el modelo de regresión, ¿qué término describe el efecto de dichos
factores? Explique.

Ejercicio 7.4. a) ¿Qué es la especificación de la forma funcional? Dé un par de ejemplos que
ilustren este concepto. b) Sean X1 , X2 y X3 tres diferentes variables explicativas de la variable Y .
De los siguientes modelos, ¿cuáles se ajustan al supuesto no 1 (14) y al modelo general (6)? En caso
que su respuesta sea afirmativa, escriba el modelo usando la notación vectorial (19).
 1 
i) Y = β0 + β1 X1 + β2 X2 + β3 X1 X2 + β4 X12 + β5 + β6 X3 + ε,
X2
1
ii) Y = −(β
+ ε,
1+e 0 +β 1 X1 +β2 X2 )

β1 X2 − X3 /β5
iii) Y = + ε,
1 + β0 + β1 X1 + β2 X2 + β3 X3
iv) ln(Y ) = β0 + β1 X1 + β2 X2 + β3 X3 + β4 ln(X3 ) + ε.

33
c) Considere el siguiente modelo Y = AX1β1 X2β2 eε , en donde Y es la variable explicada, X1 y X2 las
variables explicativas, ε el término de error, y A es una constante. Obviamente, este modelo no se
ajusta directamente a la estructura (15). ¿Es posible aplicar alguna transformación de modo que el
modelo se pueda escribir como un modelo de regresión lineal? Si es ası́, aplique dicha transformación
y escriba el modelo de modo linealizado.

Ejercicio 7.5. Considere el problema 6.1, en donde usted calculó X para una muestra de N = 4
~ . Luego, utilizando la expresión (27) y asumiendo que el
datos. Escriba el vector de respuestas Y
~
vector de parámetros es β = (−0.5 0.1 0.2 − 0.1 − 0.03 1)> , obtenga el vector de errores ~ε.
Posteriormente, calcule la suma de los cuadrados de los errores,
N
||~ε||2 = ~ε> · ~ε =
X
ε2i .
i=1

Nota: recuerde que en (27) la matriz X es la matriz de regresión aumentada.

Ejercicio 7.6. Vuelva al problema (6.7). Escriba Y~ . Asumiendo que β~ = (4.2 0.1 − 0.2 − 0.1)>
obtenga ~ε y la suma de los cuadrados de los errores, definida en el problema anterior (7.5).
~ . Asumiendo
Ejercicio 7.7. En el problema (6.8) usted obtuvo X. Escriba el vector de respuestas Y
~ >
que β = (−3.9 0.5 0.18) obtenga ~ε y la suma de los cuadrados de los errores, definida en el
problema (7.5). Finalmente, calcule el costo absoluto, o suma de los errores absolutos,
N
X
|εi |.
i=1

8 Ejercicios Capı́tulo 3
Ejercicio 8.1. Considere el siguiente modelo de regresión lineal

Y = β0 + β1 X1 + ε,

en donde la variable Y representa el peso de un individuo (kg) y el regresor X1 es la estatura (mts).


Considere los sets de datos a continuación. Utilice el set de entrenamiento T para construir la función

ID Y X1 ID Y X1
1 70 1.77 1 69 1.80
2 73 1.84 2 81 1.81
3 82 1.76 3 104 2.00
4 72 1.73 4 74 1.65

Table 7: Set de entrenamiento T (izquierda) y set de test T 0 (derecha).

de regresión muestral a través del método de mı́nimos cuadrados. Calcule RSS. Posteriormente,
evalúe la calidad de su modelo calculando RSS usando el set de test T 0 .

34
Nota: La matriz inversa, A−1 , de una matriz, A, de 2 × 2 se puede calcular explı́citamente a través
de las siguientes expresiones:
! !
a b 1 d −b
A= , A−1 = . (82)
c d ad − bc −c a
Solución.- La matriz de regresión (ampliada) es
 
1 1.77
1 1.84
X= .
 
1 1.76
1 1.73
La matriz transpuesta X > es
!
> 1 1 1 1
X = .
1.77 1.84 1.76 1.73
Luego,
!
> 4 7.1
X X= (83)
7.1 12.609
Usando la expresión para la matriz inversa dada en el enunciado,
!
> −1 1 12.609 −7.1
(X X) = (84)
0.026 −7.1 4
La matriz pseudo-inversa es
! !
1 12.609 −7.1 1 1 1 1
X + = (X > X)−1 X > =
0.026 −7.1 4 1.77 1.84 1.76 1.73
!
1 0.042 −0.455 0.113 0.326
= .
0.026 −0.02 0.26 −0.06 −0.18
Finalmente, los estimadores se obtienen haciendo
 
70 ! !
~ ~ = 1 0.042 −0.455 0.113 0.326 73 94.73
β̂ = X + Y  = . (85)
 
0.026 −0.02 0.26 −0.06 −0.18 82 −11.53
72
~ = 94.73−11.53X1 . Con la función de regresión muestral podemos
De este modo, el modelo es ĝT (X)
calcular el cuadrado de los residuos utilizando el set de entrenamiento y el set de prueba, como se
exhibe en la tabla (8). Con esto,
N
X =4
RSST = ε̂2i = 83.88
i=1
N
X =4
RSST 0 = ε̂2i = 1124.93
i=1

35
ID Y X1 ~
ĝT (X) ε̂2 ID Y X1 ~
ĝT (X) ε̂2
1 70 1.77 74.31 18.56 1 69 1.80 73.96 24.62
2 73 1.84 73.50 0.25 2 81 1.81 73.85 51.18
3 82 1.76 74.42 57.41 3 104 2.00 71.65 1046.27
4 72 1.73 74.77 7.67 4 74 1.65 75.69 2.86

Table 8: Cálculo de residuos, usando T (izquierda) y el set de test T 0 (derecha).

Ejercicio 8.2. Considere un modelo de regresión, sin variables explicativas (d = 0), esto es

Y = β0 + ε. (86)

Asuma que dispone de un set de N observaciones de la variable explicada, {Y1 , Y2 , . . . , YN }. Obtenga


el estimador de mı́nimos cuadrados del parámetro β0 y RSS.

Solución: La matriz de regresión y su transpuesta son


 
1
1
   
X=
 .. 
 , X> = 1 1 . . . 1 (87)
. 1×N

1 N ×1

Ası́, X> X = N . Por lo tanto, (X> X)−1 = 1/N . De este modo, la matriz pseudo inversa resulta
X+ = (X> X)−1 X> = (1/N )X> . Finalmente, el estimador es
 
Y1
 Y2 
  N

~ = (1/N ) 1 1 . . . 1
 1 X
β̂0 = X+ Y  . = Yi = Y . (88)
 .. 
1×N  N i=1

YN N ×1

Es decir, la predicción es simplemente el promedio muestral de Y . Consecuentemente,


N
RSS = ||~ε̂||2 =
X
(Yi − Y )2 . (89)
i=1

De donde es claro que RSS para un modelo sin regresores es la suma de los cuadrados de las
desviaciones con respecto a la media. A esta cantidad se le llama variación total de Y (si la dividimos
por N obtenemos la varianza muestral de Y ). También se le dice suma total de cuadrados o TSS
(del inglés, total sum of squares).

Ejercicio 8.3. Considere el modelo de regresión lineal simple Y = β0 + β1 X1 + ε y el set de


entrenamiento T . La variable Y es la velocidad relativa entre dos galaxias (a esta velocidad se le
dice velocidad de recesión y está medida en miles de millas por segundo), y la variable explicativa X1
es la distancia entre ambas galaxias (medida en millones de años luz). Obtenga los estimadores de

36
mı́nimos cuadrados y RSS. Verifique además que la suma de los residuos es cero, y que la correlación
entre el regresor y la serie de residuos es cero. Si la distancia entre dos galaxias aumenta en 1 millón
de años luz, y el resto de las variables permanecen fijas, ¿en cuánto cambiará la velocidad entre
ambas galaxias?
Finalmente, considere el set de test T 0 y obtenga RSS para este set de datos. A veces, a cantidad
se le dice PRSS, del inglés predicted residual sum of squares.

ID Y X1
ID Y X1
1 2.4 68
1 14.4 405
2 4.7 137
2 26.0 700
3 12.0 315

Table 9: Set de entrenamiento T (izquierda) y set de test T 0 (derecha).

Solución.- La matriz de regresión (ampliada) es


 
1 68
X = 1 137 .
 

1 315

La matriz transpuesta X > es


!
> 1 1 1
X = .
68 137 315

Por lo tanto,
! !
> 3 520 > −1 1 122618 −520
X X= ⇒ (X X) =
520 122618 97454 −520 3

La pseudo inversa es
! ! !
+ 1 122618 −520 1 1 1 1 87258 51378 −41182
X = =
97454 −520 3 68 137 315 97454 −316 −109 425

Finalmente,
 
! 2.4 ! !
~ β̂0 +~ 1 87258 51378 −41182  −0.44419
β̂ = =X Y =  4.7  =

β̂1 97454 −316 −109 425 0.0392934
12.0

~ = X
Por lo tanto, ĝT (X) ~ > β̂~ = −0.44419 + 0.0392934X1 . Esto nos dice que en la medida que
la distancia aumenta en 1 millón de años luz (ceteris paribus), la velocidad aumentará en 0.039
miles de millas por segundo (lo cual equivale a 60 km/s, aproximadamente). Este resultado es una
observación de la expansión del universo, y se le conoce como constante de Hubble.

37
ID Y X1 ~ = Ŷ
ĝT (X) ε̂ ε̂2 ε̂X1
1 2.4 68 2.23 0.17 0.03 11.71
2 4.7 137 4.94 −0.24 0.06 −32.74
3 12.0 315 11.93 0.07 0.00 21.03

Table 10: Cálculo de residuos, RSS y otras propiedades usando T .

Con la función de regresión muestral podemos calcular los residuos, RSS y otras cantidades.
De la tabla anterior,

N
X =3
ε̂i = 0,
i=1
N
X =3
RSS = ε̂2i = 0.09,
i=1
N
X =3
ε̂i Xi1 = 0.
i=1

La primera ecuación demuestra que la suma de lo residuos es cero, la segunda es RSS (la norma al
cuadrado del vector de residuos, i.e. el cuadrado de la distancia entre el vector de predicciones y el
vector de observaciones de la variable Y ), y la tercera ecuación demuestra que no hay correlación
entre la serie de residuos y las observaciones de la variable X1 .
Finalmente, podemos construir una tabla similar para evaluar PRSS:

ID Y X1 ~ = Ŷ
ĝT (X) ε̂ ε̂2
1 14.4 405 15.47 −1.07 1.14
2 26.0 700 27.06 −1.076 1.13

Table 11: Cálculo de PRSS usando T 0 .

De donde es claro que

N
X =2
P RSS = ε̂2i = 2.27
i=1

Ejercicio 8.4. Considere el modelo Y = β0 + β1 X1 + ε y el set de entrenamiento T . Demuestre


que
N
(Xi1 − X 1 )(Yi − Y )
P
i=1
β̂1 = N
, β̂0 = Y − β̂1 X 1 ,
(Xi1 − X 1 )2
P
i=1

38
en donde X 1 y Y representan las medias muestrales de las variables X1 e Y , respectivamente.
Nota: Utilice el hecho que la suma de las desviaciones con respecto a la media es cero, es decir,
N N
(Xi1 − X 1 ) = (Yi − Y ) = 0.
P P
i=1 i=1

ID Y X1
1 Y1 X11
2 Y2 X21
.. .. ..
. . .
N YN XN 1

~ 1 , Y1 ), (X
Table 12: Set de entrenamiento T = {(X ~ 2 , Y2 ), . . . , (X
~ N , YN )}.

Solución.- Es fácil notar que:


 
1 X11  N
P

!
1

X21  N Xi1 
1 1 ... 1
X> X = i=1
 
.
. ..  =
N N

X11 X21 . . . XN 1 . . 
 P P 2

2×N Xi1 Xi1
1 XN 1 N ×2
i=1 i=1
 N N 
P 2

P
1  i=1 Xi1 Xi1 
(X> X)−1 = N N
P

2  P N
i=1 

2 − − Xi1 N
P
N Xi1 Xi1
i=1 i=1 i=1

Podemos trabajar la expresión en el denominador de la fracción, haciendo:


N
X N
X 2 N
X N
X N
 X 
2 2
N Xi1 − Xi1 = N Xi1 − Xi1 Xi1
i=1 i=1 i=1 i=1 i=1
N N
!
X X
= N Xi1 Xi1 − Xi1 X 1
i=1 i=1
N
X
= N Xi1 (Xi1 − X 1 )
i=1
XN N
X
= N Xi1 (Xi1 − X 1 ) − N X 1 (Xi1 − X 1 )
i=1 i=1
| {z }
0
N
X
= N (Xi1 − X 1 )2 .
i=1
Ası́,
 
N
1
P 2 /N
Xi1 −X 1 
(X> X)−1 = .

N
i=1
(Xi1 − X 1 )2 −X 1 1
P
i=1

39
La matriz pseudo inversa es
X+ = (X> X)−1 X>
 
N !
1
P 2 /N
Xi1 −X 1  1 1 ... 1
=

N
i=1
X11 X21 . . . XN 1

(Xi1 − X 1 )2 −X 1 1
P
i=1
 
N N N
X 2 /N − X 1 X11 2 /N − X X 2 /N − X X
P P P
1 Xi1 1 21 . . . Xi1 1 N 1
= i=1 i1 .

N i=1 i=1
(Xi1 − X 1 )2 X11 − X 1 X21 − X 1 ... XN 1 − X 1
P
i=1
Podemos simplificar las expresiones en la primera fila, notando que:
N N
1 X 1 X 2 2
X 2 − X 1 X11 = 2
(Xi1 −2Xi1 X 1 + X 1 + 2Xi1 X 1 − X 1 ) − X 1 X11
N i=1 i1 N i=1 | {z }
0
N
1 X
2 2 2
= (Xi1 − 2Xi1 X 1 + X 1 ) + X 1 − X 1 X11
N i=1
N
1 X
= (Xi1 − X 1 )2 − (X11 − X 1 )X 1 . (90)
N i=1
Como la varianza muestral de X1 es
N
2 1 X
σ̂X 1
= (Xi1 − X 1 )2 ,
N i=1
podemos escribir la expresión (90) del siguiente modo:
N
1 X
X 2 − X 1 X11 = σ̂X
2
− (X11 − X 1 )X 1 .
N i=1 i1 1

Por lo tanto, la matriz pseudo inversa es


!
2 − (X − X )X 2 2
+1 σ̂X 11 1 1 σ̂X1 − (X21 − X 1 )X 1 . . . σ̂X1 − (XN 1 − X 1 )X 1
X = 2
1 .
N σ̂X 1
X11 − X 1 X21 − X 1 ... XN 1 − X 1
Con lo cual,
!
β̂0 ~
= X+ Y
β̂1
 
Y1
! 
1 2 − (X − X )X
σ̂X 11 1
2 2
1 σ̂X1 − (X21 − X 1 )X 1 . . . σ̂X1 − (XN 1 − X 1 )X 1  Y2 
= 2
1  . 
N σ̂X X11 − X 1 X21 − X 1 ... XN 1 − X 1  .. 
 
1

YN
 N N 
2 P
Yi − X 1
P
Yi (Xi1 − X 1 )
1  σ̂X1
= i=1 i=1 .
2 
N σ̂X N 
Yi (Xi1 − X 1 )
P
1
i=1

40
Como
N
X N
X N
X
Yi (Xi1 − X 1 ) = Yi (Xi1 − X 1 ) − Y (Xi1 − X 1 )
i=1 i=1 i=1
| {z }
0
N
X
= (Yi − Y )(Xi1 − X 1 ),
i=1
los estimadores se pueden escribir del siguiente modo:
 N N 
2 P
Yi − X 1
P
(Yi − Y )(Xi1 − X 1 )
σ̂X1
!
β̂0 1  i=1 i=1
= 2  N

β̂1 N σ̂X 
(Yi − Y )(Xi1 − X 1 )
P
1
i=1
N
 
"P (Yi −Y )(Xi1 −X 1 )
#
Y − X 1 i=1
 

 PN 
(X −X )2
i1 1
 
 
i=1
= 
 PN



 (Y i −Y )(X i1 −X 1 ) 

 i=1 
 N
P 
2
(Xi1 −X 1 )
i=1
 
Y − X 1 β̂1
P N 
 (Yi −Y )(Xi1 −X 1 ) 
=  .
 i=1 
 P N 
(Xi1 −X 1 )2
i=1

Que es el resultado pedido.

9 Ejercicios Capı́tulo 4
Ejercicio 9.1. Considere el siguiente modelo de regresión lineal Y = β0 + β1 X1 + β2 X2 + ε, en
donde Y es Pib de Mexico (medido en MM de pesos mexicanos), X1 el empleo (medido en miles
de personas empleadas) y X2 es el capital en la economı́a (medido en MM de pesos mexicanos).
Usted cuenta con datos, disponibles en la tabla (13), que muestran la evolución de dichas variables
a lo largo de 5 años (set de entrenamiento T ). Utilizando dicho set se obtienen los estimadores de
mı́nimos cuadrados    
β̂0 −35241.60144
~   
β̂ = β̂1  =  2.714900887  .

β̂2 0.657364533
(red) (red)
Considere ahora el modelo reducido Y = β0 + β1 X1 + ε. Construya la tabla ANOVA para
comparar ambos modelos. Luego, evalúe la ratio
~ ~
kŶ − Ŷ red k2
.
RSSred

41
Asuma que si dicha cantidad es “grande”, digamos mayor a 30%, entonces resulta conveniente
trabajar con el modelo general. De acuerdo a esta métrica, ¿cuál de los dos modelos es preferible?

ID Y X1 X2
1 276500 12955 405049
2 306700 13000 484677
3 339030 13938 520553
4 384057 14924 581531
5 414977 14154 609825

Table 13: Set de entrenamiento T : serie de tiempo.

Ejercicio 9.2. Considere el modelo de regresión lineal simple Y = β0 + β1 X1 + ε, en donde Y es


la demanda de un bien (unidades) y X1 es el precio del bien (miles de CLP). Considere el set de
entrenamiento T , descrito en la tabla (14).

a) Obtenga los estimadores de mı́nimos cuadrados, construya la tabla ANOVA y obtenga el


coeficiente de determinación (R2 ). Luego, prediga la demanda cuando el precio del bien es
igual a 5500 CLP.

b) Verifique las 5 propiedades de los estimadores de mı́nimos cuadrados.

c) Considere el modelo logarı́tmico, ln(Y ) = β0 + β1 ln(X1 ) + ε. Obtenga los estimadores de


mı́nimos cuadrados, construya la tabla ANOVA y obtenga el coeficiente de determinación
(R2 ).

d) En términos del coeficiente de determinación, ¿cuál de los dos modelos es preferible?

ID Y X1
1 5.0 2.0
2 4.0 3.0
3 2.0 6.0
4 1.0 5.0

Table 14: Set de entrenamiento T : demanda y precio de un bien cualquiera.

Ejercicio 9.3. El principio de paridad del poder compra (PPP) establece que el precio de una
cierta canasta de bienes, en cualquier lugar del mundo, “debe” tener el mismo precio. Como está
presente en casi todo el mundo, se puede utilizar como canasta representativa a la hamburguesa Big
Mac. Por ejemplo, si la hamburguesa vale 5 USD en EEUU y 2500 CLP en Chile, entonces la tasa
de cambio debiese tender (en el largo plazo) a 500 CLP/USD. El precio (en moneda local) de la
Big Mac en 4 paı́ses se presenta en la tabla (15), junto con la tasa de cambio de mercado (moneda
local/USD). Asuma, además, que el precio de la Big Mac en EEUU es de 5.67 USD.

42
Considere el modelo de regresión lineal
Y = β0 + β1 X1 + ε,
en donde Y es la tasa de cambio de mercado (de moneda local a USD) y la variable explicativa es
la tasa de cambio (moneda local/USD) calculada utilizando el PPP.

a) Si el PPP fuera correcto, ¿qué valores debiesen tener los parámetros β0 y β1 ?

b) Obtenga los estimadores de mı́nimos cuadrados de los parámetros del modelo.

c) Construya la tabla ANOVA y obtenga el coeficiente de determinación.

Paı́s Precio Big Mac Tasa de cambio de mercado


Brazil 19.90 4.14
Canada 6.77 1.31
Switzerland 6.50 0.97
Denmark 30.00 6.72

Table 15: Índice Big Mac (The Economist, 15/Enero/2020).

Solución.- a) β0 = 0 y β1 = 1. En ese caso, Y = X1 + ε, es decir, la tasa de mercado serı́a igual a


la tasa calculada usando el PPP (más una perturbación).
b) Conviene escribir primero una tabla con las tasas PPP y de mercado,

Paı́s Tasa de cambio PPP Tasa de cambio de mercado


Brazil 19.90/5.67 = 3.51 4.14
Canada 6.77/5.67 = 1.19 1.31
Switzerland 6.50/5.67 = 1.15 0.97
Denmark 30.00/5.67 = 5.29 6.72

Table 16: Índice Big Mac (The Economist, 15/Enero/2020). Tasas de mercado y PPP.

Procedemos ahora con el cálculo de los estimadores.


 
1 3.51 ! !
1 1.19 1 1 1 1 4 11.14
>
X =   , X , X> X = .
 
1 1.15 3.51 1.19 1.15 5.29 11.14 43.05
1 5.29
! !
> −1 1 43.05 −11.14 + > −1 > 1 3.95 29.75 30.28 −15.90
(X X) = , X = (X X) X =
48.086 −11.4 4 48.086 2.90 −6.37 −6.56 10.02
 
4.14 ! !
~ ~ = 1 3.95 29.75 30.28 −15.90 
1.31
 −0.460
β̂ = X+ Y = .
2.90 −6.37 −6.56 10.02 0.97

48.086 1.345
6.72

43
~ = Ŷ = −0.46 + 1.345X1 .
Por lo tanto, ĝT (X)

c) Notar que Y = 3.285. Conviene organizar los datos en la siguiente tabla:

Y X1 Ŷ ε̂ ε̂2 Y −Y (Y − Y )2
4.14 3.51 4.26 −0.1190 0.0142 0.855 0.731
4.31 1.19 1.15 0.1645 0.0271 −1.975 3.9006
0.97 1.15 1.08 −0.1115 0.0124 −2.315 5.3592
6.72 5.29 6.65 0.0660 0.0044 3.435 11.799

La suma de los elementos de la 5ta columna (de izquierda a derecha) es RSS. La suma de los
elementos de la 7ma columna (de izquierda a derecha) es TSS.

RSS = 0.058 , TSS = 21.7901.

Como ESS+RSS=TSS, sabemos que ESS=TSS-RSS=21.7321. De esta manera, la tabla de análisis


de varianza es

Modelo Suma de Cuadrados GL Suma Media de Cuadrados F


Principal v/s Reducido 21.7321 1 21.7321 749.331
Principal 0.058 2 0.029 –
Reducido 21.7901 3 7.2634 –

Por último,
RSS
R2 = 1 − = 0.9973.
TSS
Es decir, un 99.73% de la variación total de la tasa de mercado en la muestra se explica usando el
modelo de regresión lineal. Como sabemos, esto también significa que la correlación entre la serie

de predicciones Ŷ y la serie de observaciones de Y es igual a 0.9973 = 0.9987. Similarmente, la
correlación en la muestra entre X1 (la tasa de cambio PPP) y Y (tasa de cambio de mercado) es
0.9987.

Ejercicio 9.4. Usando las propiedades algebraicas de los estimadores de mı́nimos cuadrados, de-
muestre que
N
X
ESS = (Ŷi − Y )(Yi − Y ).
i=1

Solución.- Sabemos que ESS es (el cuadrado del “largo”) de la diferencia entre las predicciones
de un modelo de regresión lineal y las predicciones hecha a partir de un modelo sin regresores (la
media muestral de Y ). Es decir,

N N
~ ~ k2 = X(Ŷ − Y )2 = X(Ŷ − Y )(Ŷ − Y ).
ESS = kŶ − Y i i i
i=1 i=1

44
Como Yi = Ŷi + ε̂i , o bien, Ŷi = Yi − ε̂i ,
N
X
ESS = (Ŷi − Y )(Yi − ε̂i −Y )
| {z }
i=1 Yi
N
X
= (Ŷi − Y )(Yi − Y − ε̂)
i=1
XN N
X
= (Ŷi − Y )(Yi − Y ) − (Ŷi − Y )ε̂i
i=1 i=1
XN XN N
X
= (Ŷi − Y )(Yi − Y ) − Ŷi ε̂i − Y ε̂i .
i=1 i=1 i=1

Por las propiedades algebraicas de los estimadores de mı́nimos cuadrados, en particular, como los
residuos suman cero (50) y no hay correlación entre Ŷ y la serie de residuos (51), los últimos dos
términos valen cero. Con esto se demuestra lo pedido.

Ejercicio 9.5. Considere el modelo de una sola variable explicativa (d = 1) Y = β0 + β1 X1 + ε.


Demuestre que el coeficiente de correlación en este caso es el cuadrado de la correlación entre Y y
X1 , esto es,
N
(Xi1 − X 1 )(Yi − Y )
" P #2
2 i=1
R = s s .
N N
(Xi1 − X 1 )2 (Yi − Y )2
P P
i=1 i=1

Solución.- Sabemos que el coeficiente de determinación es el cuadrado de la correlación entre la


predicción y la variable explicada (63),
N
(Ŷi − Y )(Yi − Y )
" P #2
2 i=1
R = s s .
N N
(Ŷi − Y )2 (Yi − Y )2
P P
i=1 i=1

Como Ŷi = β̂0 + β̂1 Xi1 y Y = β̂0 + β̂1 X 1 (propiedad 53), entonces (Ŷi − Y ) = β̂1 (Xi1 − X 1 ). Con
esto, la expresión anterior queda
N N
β̂1 (Xi1 − X 1 )(Yi − Y ) (Xi1 − X 1 )(Yi − Y )
" P #2 " P #2
2 i=1 i=1
R = s s = s s .
N N N N
β̂12 (Xi1 − X 1 )2 (Yi − Y )2 (Xi1 − X 1 )2 (Yi − Y )2
P P P P
i=1 i=1 i=1 i=1

Ejercicio 9.6. Demuestre que la relación entre el coeficiente de determinación y el coeficiente de


determinación ajustado está dada por
N −1
R̄2 = 1 − (1 − R2 ).
N −p

45
References
Galton, F. (1886, January). Regression Towards Mediocrity in Hereditary Stature.

Keynes, J. M. (1936). The General Theory of Employment, Interest and Money. Macmillan. 14th
edition, 1973.

Michie, D., V. Profile, and O. M. A. Metrics (1988, Oct). The fifth generation’s unbridged gap: A
half-century survey on the universal turing machine.

Mincer, J. (1974). Schooling, Experience, and Earnings. National Bureau of Economic Research,
Inc.

Plackett, R. L. (1972, 08). Studies in the History of Probability and Statistics. XXIX: The discovery
of the method of least squares. Biometrika 59 (2), 239–251.

Street, W. N., W. H. Wolberg, and O. L. Mangasarian (1993). Nuclear feature extraction for
breast tumor diagnosis. In R. S. Acharya and D. B. Goldgof (Eds.), Biomedical Image Processing
and Biomedical Visualization, Volume 1905, pp. 861 – 870. International Society for Optics and
Photonics: SPIE.

46

También podría gustarte