Apuntes

Apuntes de Clases
Sergio J. Carrasco
April 17, 2023
1 Conceptos Básicos
Durante este curso vamos a estudiar la relación entre una variable aleatoria Y , a la cual llamaremos
variable explicada, y un vector formado por d variables, denotado con
 
X1
X 
 
~ =  . 2  = (X1 , X2 , . . . , Xd )> ,
X (1)
 . 
 . 
Xd
a las cuales llamaremos variables explicativas. Al vector X ~ también se le dice feature vector.
Otros nombres comúnmente empleados para las distintas variables se resumen en la tabla 1. Las
variables explicativas pueden ser variables aleatorias (como ocurre en un contexto no experimen-
tal), o bien, variables no aleatorias, esto es, variables controladas (como ocurre en un contexto
experimental). Algunos ejemplos se presentan a continuación.
Y X~ = (X1 , . . . , Xd )>
Variable Explicada Variable Explicativas
Variable Dependiente Variables Independientes
Variable Respuesta Variables de Control
Regresando Regresores
Predicción Predictores
Variable Endógena Variables Exógenas
~ Y ).
Table 1: Distintos nombres para las variables (X,
Ejemplo 1.1. (Ciencias Sociales) La variable Y podrı́a ser la mortalidad infantil en un paı́s
cualquiera (número de muertes de niños menores a 5 años durante un año, por cada mil nacimien-
~ = (X1 , X2 , X3 )> , en donde X1 representa el
tos), y el vector de variables explicativas podrı́a ser X
Pib per cápita, X2 la tasa de alfabetización de la población de mujeres y X3 la tasa de fertilidad
(número de hijos por mujer) del paı́s.
1
Ejemplo 1.2. (Economı́a) La variable Y es el salario promedio de un individuo (dólares por mes)
~ = (X1 , X2 , X3 , X4 )> , en donde X1 son los años
durante un cierto año T . El set de variables es X
de educación y X2 los años de experiencia laboral del individuo acumulados hasta el año T . La
variable X3 es una variable categórica definida del siguiente modo:

1 si el trabajador participó previamente en un cierto programa de capacitación,
X3 = (2)
0 en caso contrario.
Por último, el cuarto regresor (X4 ) es el número de hijos del individuo en el año T .
Ejemplo 1.3. (Microeconomı́a) La demanda de un commodity corresponde a la variable explicada
~ = (X1 , X2 , X3 , X4 )> , en donde X1 es el
Y , mientras que el vector de variables explicativas es X
precio del commodity, X2 el precio de un commodity complementario, X3 el precio de un commodity
competidor y X4 representa el ingreso real de los consumidores.
Ejemplo 1.4. (Macroeconomı́a) La variable respuesta Y es la tasa de polı́tica monetaria (TPM)
fijada por el Banco Central de Chile para un cierto año, mientras que X ~ = (X1 , X2 , X3 )> . La
variable X1 representa la inflación, X2 el producto y X3 el déficit fiscal del periodo anterior.
Ejemplo 1.5. (Macroeconomı́a, Fundamental Psychological Law) La variable Y representa el con-
sumo total de una cierta economı́a durante un año, mientras que el vector de variables explicativas
~ = (X1 ), en donde X1 es el ingreso total durante ese año.
está formado por un único regresor X
Ejemplo 1.6. (Finanzas) La variable Y representa la variación porcentual semanal del ı́ndice de
acciones S&P 500, mientras que X ~ = (X1 ) (una sola variable explicativa), en donde X1 es la
variación porcentual de la semana anterior.
Ejemplo 1.7. (Astronomı́a) La variable explicada Y es la velocidad estelar de dispersión de una
galaxia elı́ptica (informalmente, una medida de la diferencia entre la velocidad de las estrellas más
lejanas al centro de la galaxia y la velocidad media de todas las estrellas de la galaxia) y la variable
explicativa X ~ = (X1 ), en donde X1 es la luminosidad de la galaxia.
Ejemplo 1.8. (Biologı́a) La variable Y es el tiempo que le toma a un ratón en recorrer un laberinto
complejo al final del cual hay una recompensa (agua, por ejemplo). La variable explicativa es
~ = (X1 ), en donde X1 es el número de veces que el ratón ha completado previamente el laberinto.
X
Ejemplo 1.9. (Medicina) Nos interesa predecir el peso de un niño al nacer, en base al peso de la
madre (al nacer) e información relativa a su consumo de cigarros. De este modo, la variable Y es
el peso de un niño al nacer (en kilos), y el vector de variables explicativas es X = (X1 , X2 )> . La
variable explicativa X1 es el peso de la madre (en kilos) y X2 una variable cualitativa, que toma los
valores {Fumadora, No-fumadora}. Le asignaremos el valor 1 si la madre es fumadora y el valor 0
en caso contrario.
Ejemplo 1.10. (Ingenierı́a) La respuesta Y es una variable definida del siguiente modo:

1 si se debe recomendar navegación automática del transbordador Shuttle,
Y = (3)
0 en caso contrario (mantener navegación manual).
2
~ = (X1 , X2 , X3 , X4 , X5 , X6 )> y se definen de la siguiente manera:
Las variables predictoras son X
 
1 si hay viento de cola, 1 si la posición de la nave es estable,
X1 = X2 = (4)
0 en caso contrario, 0 en caso contrario (xstab),

1 si hay visibilidad,
X3 = (5)
0 en caso contrario.
La variable X4 indica si hay algún tipo de error en la navegación (hay 4 tipos de error: XL, LX,
MM, SS) y la variable X5 indica si el error tiene signo negativo o positivo. Por último, la variable
X6 describe la magnitud del viento (baja, media, fuerte y fuera de rango). Más información acerca
de este problema en (Michie et al., 1988).
Ejemplo 1.11. (Medicina) Suponga que la variable Y toma el valor 1 si una masa extraı́da de
un seno es un tumor es maligno y 0 en caso contrario. El vector de variables explicativas es
X~ = (X1 , X2 , X3 , X4 , X5 , X6 , X7 , X8 , X9 , X10 )> . Las variables explicativas se describen en la tabla
(2). Más información acerca de este problema en (Street et al., 1993).
X1 Radio
X2 Textura
X3 Perı́metro
X4 Área
X5 Suavidad
X6 Compacidad
X7 Concavidad
X8 Puntos cóncavos
X9 Simetrı́a
X10 Dimensión fractal
Table 2: Variables predictoras para la detección de cáncer de mama
Ejemplo 1.12. (Mail) Suponga que el set de variables explicativas X ~ contiene información relevante
para caracterizar un email. Por ejemplo, una variable explicativa podrı́a ser el número de veces que
aparece la palabra “oferta” en el correo electrónico. La variable respuesta Y toma el valor 1 si el
mail es clasificado como spam y 0 en caso contrario.
Ejemplo 1.13. (Ciencias Polı́ticas) La variable explicada Y corresponde al porcentaje de votos

obtenido por el candidato A en una elección de dos candidatos polı́ticos (A, B). La variable explica-
~ = (X1 ), en donde X1 es el gasto relativo del candidato A durante la campaña electoral.
tiva es X
Ejemplo 1.14. (Polı́ticas Públicas) La variable Y es una medida del crimen per capita en una
~ = (X1 , X2 , X3 )> . La variable X1 es el desempleo, X2 el gasto per capita
ciudad, mientras que X
en medidas preventivas del crimen y X3 el crimen per capita registrado en periodos anteriores.
3
Ejemplo 1.15. (Agricultura) Queremos entender cómo la producción de un terreno (variable Y ),
medida en (t/ha), depende de X ~ = (X1 , X2 )> , en donde X1 representa la cantidad de fertilizante
aplicado (kg/ha) y X2 la cantidad de pesticidas aplicada (kg/ha).
Como se ilustra en los diferentes ejemplos anteriores, las variables (X, ~ Y ) pueden tomar valores
numéricos, pudiendo ser continuas, si toman valores en algún intervalo I ∈ R, o discretas, como
la variable X4 del ejemplo (1.2) que toma valores en N0 = {0, 1, 2, . . .}. En todos estos casos diremos
que se trata de variables variables cuantitativas. Variables como la inflación, precio, salario, etc.,
son ejemplos de variables cuantitativas continuas. En cambio, variables como el número de hijos,
número de accidentes, etc., son ejemplos de variables cuantitativas discretas. Por otro lado, las
variables pueden tomar valores no numéricos. Por ejemplo, una variable “color” que toma valores
{Rojo,Verde, . . .}, la variable Y del ejemplo (1.11) o la variable X1 del ejemplo (1.10). En estos
casos, diremos que son que son variables cualitativas o variables categóricas.
Definition 1.1 (Modelo General).
~ + ε.
Y = g(X) (6)
~ le diremos función de predicción y describe cómo el vector de variables

A la función g(X)
explicativas afecta a la variable Y . La función g (del inglés, guess function) toma como input el
vector de variables explicativas X~ y produce como output una predicción g(X) ~ de la variable Y .
También se le dice la parte sistemática del modelo.
Como veremos más adelante, la función g no es completamente conocida y habrá que estimarla.
Cuando la variable Y es una variable cualitativa continua, a g se le dice función de regresión y
al problema de estimarla se le dice un problema de regresión. En cambio, cuando la variable
Y es categórica diremos que se trata de un problema de clasificación y a la función g se le
conoce como clasificador. El nombre regresión aparentemente proviene de la “ley de regresión a
la mediocridad” planteada por Francis Galton en sus estudios acerca de la transmisión de ciertas
caracterı́sticas de una generación a otra (Galton, 1886). Actualmente, a veces se habla de “correr
~ También se habla de “regresar la variable Y en X”.
la regresión de Y en X”. ~
Al segundo término del modelo (6), ε, se le denomina error o perturbación. Es una variable
aleatoria que describe el efecto de todas las variables que afectan a Y , pero no están incluidas
explı́citamente en el vector de variables explicativas X. ~ El término de error es la parte no sis-
temática del modelo. En el ejemplo (1.15) la producción de un terreno obviamente no solo depende
de las cantidades de fertilizante (X1 ) y pesticida (X2 ) aplicadas, sino que de muchı́simas otras vari-
ables no observadas explı́citamente: lluvias, luz solar, calidad del terreno, humedad, etc. La idea es
que todas las variables incluidas en ε no estén correlacionadas con X ~ (más adelante formalizaremos
matemáticamente esta idea).
Uno de los principales desafı́os será estimar el efecto ceteris paribus que tiene una variable
explicativa Xi sobre la variable explicada Y , es decir, el cambio ∆Y que experimentarı́a la variable
4
explicada Y si la variable explicativa Xi cambia en ∆Xi y el resto de las variables se mantienen fijas.
Esencialmente, esto puede ser útil para dos propósitos: i) verificar o refutar una teorı́a económica,
y ii) para tomar decisiones. En el ejemplo (1.4), si logramos “probar” (en base a datos) que
0 < ∆Y /∆X < 1, entonces podrı́amos verificar empı́ricamente la ley de Keynes acerca del consumo
(Keynes, 1936). En el ejemplo (1.2) nos podrı́a interesar estimar el cambio en la productividad
(salario) al participar del programa de capacitación y ası́ decidir si el programa es eficaz y conviene
participar de éste. Por otra parte, usando la función de predicción g nos interesará también hacer
predicciones de la variable Y en base a los valores que toman las variables explicativas.
Organización y representación de datos. Asumimos que existe un proceso generador de una

serie de N datos. Dicho proceso puede ser de dos tipos: i) un experimento, o ii) la observación (o
medición) de las variables (por ejemplo, a través de una encuesta). Ya sean datos experimentales o
no experimentales, éstos se arreglan en una tabla de datos del modo descrito a continuación.
~
Y ~>
X
z }| { z }| {
ID Y X1 X2 ... Xd
1 Y1 X11 X12 ... X1d →X ~>
1
2 Y2 X21 X22 ... X2d →X ~>
2
3 Y3 X31 X32 ... X2d →X ~>
3
.. .. .. .. .. .. ..
. . . . . . .
N YN XN 1 XN 2 ... XN d →X ~>
N
~ (7). En violeta los elementos de la matriz

Table 3: Data frame. En azul se denota al vector de respuestas Y
modelo (9).
La primera columna (ID) es un ı́ndice que etiqueta a cada dato, de 1 a N (si se trata de tabla
de datos grande N 106 ). La segunda columna, marcada en color azul, está formada por las
diferentes observaciones de la variable explicada Y . Podemos coleccionar las distintas respuestas en
un solo vector de respuestas,
 
Y1
Y 
 
~ =  .2  .
Y (7)
 . 
 . 
YN
El resto de las columnas, marcadas en color violeta, corresponden a las observaciones de las variables
explicativas X1 , X2 , . . ., Xd . Si vemos esta región de la tabla por filas, es claro que la primera fila
corresponde a la primera observación del vector de variables explicativas, X ~ > , la segunda fila es la
1
segunda observación, X ~ , y ası́. Es decir, las observaciones de los vectores de variables explicativas
>
2
5
se denotan del siguiente modo:
     
X11 X21 XN 1
X  X  X 2 
     
X ~ 2 =  .22  , . . . , X
~ 1 =  .12  , X ~N =  N
 ..  . (8)

 .   . 
 .   .   . 
X1d X2d XN d
Notar entonces que Xij corresponde a la i-ésima observación de la j-ésima variable explicativa. A
la matriz X = (Xij ) se le dice matriz modelo (model matrix) o matriz de regresión,
~T
X
 
X11 X12 ... X1d

1
 ~T
 X2   X21 X22 ... X2d 


X=
 .. 
 =
 ..
 . (9)
 .   .


X~T XN 1 XN 2 . . . XN d
N N ×d N ×d
En realidad, los nombres “matriz de regresión” o “matriz modelo” se utilizan cuando las variables
explicativas son cuantitativas. Cuando son variables cualitativas (las cuales se tratan de un modo
especial), le diremos matriz de diseño. Por otra parte, cuando los datos son generados por
un experimento, como ocurre en ciencias naturales, la matriz de regresión no cambia, es decir, si
volvemos a repetir el experimento la matriz X sigue siendo la misma (lo que sı́ cambia es el vector
de respuestas Y~ ). En cambio, en ciencias sociales y economı́a tı́picamente no hay control sobre las
variables explicativas (son variables aleatorias), de modo que la matriz X varı́a si se puede volver a
tomar la muestra.
Los datos de la tabla (3) son una representación “computacional” de los datos. Matemáticamente,
los datos son un conjunto un D formado por N pares de las variables (X,~ Y ),
~ 1 , Y1 ), (X
D = {(X ~ 2 , Y2 ), . . . , (X
~ N , YN )} = {(X
~ i , Yi ), i = 1, . . . , N }. (10)
Podemos aplicar el modelo general (6) a cada uno de los datos de la serie,
~ i ) + εi ,
Yi = g(X ∀ i = 1, . . . , N. (11)
O bien, de modo exhaustivo,
~ 1 ) + ε1 ,
Y1 = g(X
~ 2 ) + ε2 ,
Y2 = g(X
..
.
YN ~ N ) + εN .
= g(X (12)
De la misma manera a como agrupamos las respuestas en un vector (7), también podemos agrupar
los errores en un solo vector
 
ε1
 ε2 
 
~ε = 
 ..  .
 (13)
 . 
εN
6
Tipos de Datos. Cada dato puede ser un determinado elemento de una población; una persona,
hogar, colegio, empresa, paı́s, etc.
Ejemplo 1.16. Supongamos que variable Y es el salario y los datos son personas: Y1 serı́a el salario
de la primera persona de la muestra, Y2 el salario de la segunda persona y ası́. En este caso, el ID
etiqueta a cada persona.
Una segunda posibilidad es que los datos sean observaciones tomadas en diferentes periodos de
tiempo de un mismo sujeto.
Ejemplo 1.17. Asuma que la variable Y (Pib de Chile) es monitoreada cada año: Y1 serı́a el Pib
de Chile durante el año 1 (digamos, el año 2010), Y2 serı́a el Pib de Chile durante el año 2 (2011)
y ası́. En este caso, el ID es el tiempo.
Cuando los datos son observaciones de distintos sujetos obtenidas durante un mismo periodo de
tiempo, hablaremos de un corte transversal. Cuando los datos son generados en el tiempo
observando a un mismo sujeto, entonces diremos que los datos son una serie de tiempo. Los
datos del ejemplo (1.16) son datos de corte transversal (o datos transversales). Los datos del ejemplo
(1.17) son una serie de tiempo. Hay estructuras de datos más complejas como cortes transversales
combinados (pooled cross sections) y datos de panel (panel data). Para almacenar estos datos
en una tabla no basta con una única columna ID. Durante este curso veremos principalmente cortes
transversales y, en menor medida, series de tiempo.
Generación de datos. Los datos experimentales son más comunes en las ciencias naturales. Por
ejemplo, en un laboratorio de electricidad podemos aplicar un voltaje X1 a un objeto de largo X2
y área transversal X3 (vector de variables explicativas X ~ = (X1 , X2 , X3 )> ) y medir la corriente Y .
Modificando los valores que toman las variables explicativas, podemos generar un set de N datos
experimentales. En cambio, los datos no experimentales son más frecuentes en ciencias sociales.
Se pueden generar a través de i) encuestas, ii) información extraı́da desde empresas (a través
de sus sistemas ERP, estados financieros), iii) estimaciones (por ejemplo, el cálculo del Imacec
realizado por el Banco Central), iv) medidas usando instrumentos o sensores (por ejemplo, en
astronomı́a, medicina o ingenierı́a), y v) monitoreo de sistemas (por ejemplo, extrayendo información
desde las bolsas de valores). Los datos son generados por instituciones privadas (por ejemplo,
Cadem), instituciones gubernamentales (por ejemplo, el Instituto Nacional de Estadı́sticas o el
Banco Central) o instituciones internacionales. Se almacenan en archivos con diferentes extensiones:
.data, .csv, .sav, .dta, .mdb,.sql, etc. En internet hay muchı́simos repositorios de
datos. Algunos de éstos son:
• https://archive.ics.uci.edu/ml/datasets.php
• https://www.nber.org/research/data
• https://si3.bcentral.cl/siete/
• https://www.ine.gob.cl/
7
• https://vincentarelbundock.github.io/Rdatasets/
• https://dataverse.harvard.edu/
• https://catalog.data.gov/dataset
• https://datasetsearch.research.google.com/
2 Modelo de Regresión Lineal

Al introducir el modelo general (6) en la sección (1) adelantamos que la función de predicción g no
es conocida. Nos preocuparemos del caso en que la variable explicada Y es una variable cualitativa
continua, de modo que nos enfrentamos propiamente a un problema de regresión.
~ es una función que de-
En primer lugar, haremos la suposición de que función de regresión g(X)
pende linealmente de un conjunto parámetros.
Supuesto 1. La función de regresión depende linealmente de un conjunto de p = d + 1

parámetros.
~ = β0 + β1 X1 + β2 X2 + . . . + βd Xd .
g(X) (14)
Los “betas” son los parámetros del modelo. Al parámetro β0 se le dice parámetro de intercepto
(intercept parameter), mientras que a los parámetros restantes β1 , . . . , βd se les dice parámetros de
pendiente (slope parameters). La cantidad de parámetros (p) es igual al número de variables (d)
más 1, debido al parámetro de intercepto (si no hubiera parámetro de intercepto entonces p = d).
~ el modelo (6) se escribe del modo descrito a continuación.
Habiendo definido g(X),
Definition 2.1 (Modelo de regresión lineal).
Y = β0 + β1 X1 + β2 X2 + . . . + βd Xd + ε. (15)
Bajo el supuesto (14), notemos que la función de regresión puede escribirse del siguiente modo:
 
β0
β 
 
 1
~ = 1 X1 X2
g(X) . . . Xd · β2  .
 
(16)
 . 
 .. 
 
βd
~ = (X1 X2 . . . Xd )> .
Recordar que en la expresión (1) definimos al vector de variables explicativas como X
La ecuación (16) nos motiva a redefinir el vector de variables explicativas de modo similar a cómo
8
lo hicimos inicialmente, pero incluyendo ahora un 1 en la primera posición. Además, nos conviene
agrupar todos los parámetros en un vector de parámetros β. ~ De este modo, definimos
   
1 β0
X1  β1 
   
   
~
X = X2  ,
  ~
β = β2  .
 
(17)
 .   . 
 ..   .. 
   
Xd βd
Con esta redefinición del vector de variables explicativas y definición de β~ podemos escribir la
función de regresión (16) y el modelo lineal (15) de forma vectorial,
~ = X
g(X) ~ > · β,
~ (18)
~ > · β~ + ε.
Y = X (19)
Las expresiones (18) y (19) son únicamente una manera más compacta de escribir (16) y (15),
respectivamente. Es muy importante tener claro que, aún cuando bajo el supuesto (14) sabemos
“algo” acerca de la función de regresión, ésta todavı́a no es completamente conocida. Esto se debe
a tres motivos;
~
1. no sabemos cuáles son las d variables explicativas que deben ir en X,
2. no sabemos si la variable explicada debe ser transformada o no, y
3. desconocemos el valor de los parámetros.
Responder a los dos primeros puntos constituye la especificación de la forma funcional del
modelo. El tercer problema se enfrenta estimando los parámetros en base a un set de datos. Hay
varios métodos de estimación. Nosotros emplearemos el método de estimación por mı́nimos
cuadrados.
El tema de la especificación de la forma funcional lo veremos más adelante. Por el momento, sin
embargo, consideremos un breve ejercicio para ilustrar el problema. Suponga que a usted le interesa
construir un modelo para estudiar la demanda D de un commodity. Sean P , Ps e I el precio del
commodity, el precio de un commodity sustituto y el ingreso de los consumidores, respectivamente.
Algunos posibles modelos de demanda se presentan a continuación.
Y = β0 + β1 P + ε, (d = 1) (20)
ln(Y ) = β0 + β1 ln(P ) + ε, (d = 1) (21)
Y = β0 + β1 P + β2 I + β3 Ps + ε, (d = 3) (22)
2
Y = β0 + β1 P + β2 I + β3 I + β4 Ps + ε, (d = 4) (23)
ln(Y ) = β0 + β1 P + β2 I + β3 Ps + ε, (d = 3) (24)
1
Y = β0 + β1 + β2 P · P s + ε. (d = 2) (25)
P
9
Notar que todos los modelos anteriores respetan la suposición (14), pues todos dependen linealmente
de un conjunto de parámetros. Por ejemplo, el modelo (23) es un modelo con d = 4 variables
explicativas; X1 = P , X2 = I, X3 = I 2 , y X4 = Ps , y por lo tanto se ajusta a la estructura
Y = β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + ε (modelo con p = 5 parámetros). El modelo (25) es un
modelo con d = 2 variables explicativas; X1 = 1/P y X2 = P · Ps . Por lo tanto se ajusta a un
modelo de p = 3 parámetros, Y = β0 + β1 X1 + β2 X2 + ε. El modelo (20) es un modelo con una
variable explicativa, al igual que el modelo (21). Por lo tanto, ambos se ajustan a la estructura
β0 + β1 X1 + ε (p = 2 parámetros). Por último, notar que en los modelos (21) y (24) la variable Y ha
sido transformada, lo cual es también perfectamente válido (en esos casos, en realidad, la variable
explicada serı́a el logaritmo de la demanda).
¿Cuál de todos los modelos es el modelo de demanda correcto? Para ayudar a responder a esta
pregunta existen diversos métodos, algunos de los cuales veremos más adelante. También, será útil
tener una cierta intuición acerca de cuál podrı́a ser la forma funcional correcta. En cualquier caso,
por el momento, asumiremos que la forma funcional viene dada. Sin embargo, es importante aclarar
desde ya que la incorrecta especificación de la forma funcional acarrea problemas que comentaremos
al estudiar el tema.
Si contamos con un set D formado por N datos, podemos aplicar el modelo lineal (19) a cada dato,
esto es,
~ > · β~ + ε1 ,
Y1 = X 1
Y2 = X2> · β~ + ε2 ,
~
..
.
YN ~ > · β~ + εN .
= X (26)
N
Usando los vectores (7) y (13), el modelo lineal aplicado a un conjunto de N datos se puede escribir
de modo compacto,
~ = X · β~ + ~ε.
Y (27)
Notar que X es una matriz de regresión aumentada,
~
 > 
X 1 X11 X12 ... X1d

1
 ~ > 
X2  1 X21 X22 ... X2d 

X=
 ..  =  ..
  .. .. ..
 (28)
 .  . . . . ... 

~>
X 1 XN 1 XN 2 . . . XN d
N
Esta matriz es similar a la matriz de regresión (9) introducida en la sección (1). La única diferencia
es que la primera columna contiene ahora un conjunto de 1’s (debido a la redefinición del vector de
variables explicativas).
Por último, y a modo de resumen, agrupamos algunas de las expresiones vistas en este capı́tulo en
el cuadro a continuación.
10
Función de regresión lineal ~ =X
g(X) ~ > · β~
Modelo de regresión lineal Y =X ~ · β~ + ε
>
Modelo de regresión lineal aplicado al i-ésimo dato Yi = Xi> · β~ + εi

~
Modelo de regresión lineal aplicado a N datos ~ = X · β~ + ~ε
Y
Función de regresión lineal ~ = β0 + β1 X1 + β2 X2 + . . . + βd Xd

g(X)
Modelo de regresión lineal Y = β0 + β1 X1 + β2 X2 + . . . + βd Xd + ε
Modelo de regresión lineal aplicado al i-ésimo dato Yi = β0 + β1 Xi1 + β2 Xi2 + . . . + βd Xid + εi
Y1 = β0 + β1 X11 + β2 X12 + . . . + βd X1d + ε1
Y2 = β0 + β1 X21 + β2 X22 + . . . + βd X2d + ε2
Modelo de regresión lineal aplicado a N datos ..
.
YN = β0 + β1 XN 1 + β2 XN 2 + . . . + βd XN d + εN
Table 4: Función de regresión lineal y modelo de regresión lineal, con notación vectorial (cuadro superior)
y sin notación vectorial (cuadro inferior). Recordar que X es la matriz de regresión aumentada (28) y que
~ es el vector de variables explicativas (17).
X
3 Estimación de parámetros
3.1 Función de regresión muestral
Asumimos que la forma funcional del modelo lineal ha sido especificada. Es decir, consideramos el
modelo
~ > · β~ +ε,
Y = β0 + β1 X1 + . . . + βd Xd +ε = X (29)
| {z } | {z }
~
g(X) ~
g(X)
asumiendo que sabemos perfectamente cuál es la variable Y y cuáles son los d regresores; X1 , . . .,
~
Xd . ¿Significa esto que ya conocemos perfectamente la función g(X)? No, pues desconocemos los
verdaderos valores de los parámetros. Por lo tanto, tendremos que estimarlos usando un set de
datos. A dicho conjunto de datos lo llamaremos set de entrenamiento y lo denotaremos con
T . En otras palabras, vamos a “entrenar el modelo” para construir las “mejores” estimaciones
posibles de los parámetros. Es importante aclarar que se trata de estimaciones y, por lo tanto,
nunca conoceremos el verdadero valor de los parámetros. Ası́, es conveniente introducir la siguiente
definición.
Definition 3.1 (Función de regresión muestral).
~
~ > · β̂.
~ = β̂0 + β̂1 X1 + β̂2 X2 + . . . + β̂d Xd = X
ĝT (X) (30)
Notar que la función de regresión muestral tiene la misma forma que (14), (16) y (18). La única
diferencia es que la función depende ahora de las estimaciones de los parámetros; β̂0 , β̂1 , . . ., β̂d .
Por eso, usamos el sı́mbolo ĝ. Además, para indicar que las estimaciones fueron construidas en
base a un set de entrenamiento T , agregamos el correspondiente subı́ndice y escribimos ĝT . Notar
11
~
también que el vector β̂ es análogo a (17) pero incluye ahora a las estimaciones y no los verdaderos
parámetros,
 
β̂0
~ β̂1 
 
 ..  .
β̂ =   (31)
 . 
β̂d
De esta manera, la variable Y se escribe ahora
Y ~ > · β̂~ + ε̂,

= X (32)
Y = β̂0 + β̂1 X1 + β̂2 X2 + . . . + β̂d Xd + ε̂, (33)
es decir, como la suma de una predicción (pero ahora usando la función muestral) y un término
adicional, ε̂, llamado residuo, y que describe el efecto de las variables no observadas que afectan al
regresando. Compare las expresiones (32) y (33) con (19) y (15), respectivamente. Debiese notar
que el error (ε) es la diferencia entre Y y la predicción g(X). ~ En cambio, el residuo (ε̂) es la
~
diferencia entre Y y la predicción ĝT (X). El error nunca será conocido pues los “verdaderos betas”
(los parámetros que definen a la función de predicción) son desconocidos. El residuo sı́ puede ser
conocido, una vez que hayamos construido la función de regresión muestral y la podamos comparar
con Y .
Si tenemos un set de datos, podemos aplicar la ecuaciones (32) y (33) al i-ésimo dato,
~ > · β̂~ + ε̂i ,

Yi = X (34)
i
Yi = β̂0 + β̂1 Xi1 + β̂2 Xi2 + . . . + β̂d Xid + ε̂i . (35)
La primera ecuación es análoga a cualquiera de las ecuaciones en (26). La segunda, análoga a la

tercera ecuación de la tabla resumen (4).
Finalmente, si tenemos un set de N datos, podemos escribir una expresión análoga a (27), esto es,
~ = X · β̂~ + ~ε̂,
Y (36)
en donde, de modo similar a (13), utilizamos el vector de residuos,

 
ε̂1
ε̂
 
~ε̂ =  .2  .
 
 .  (37)
 . 
ε̂N
~
Antes de describir cómo calcularemos β̂ en base a un set de datos T , es conveniente introducir
ciertos conceptos que serán útiles al describir el método de estimación.
12
3.2 Espacio columna de una matriz y norma de un vector
Consideremos la multiplicación A~v , en donde A es una matriz de cualquiera (digamos, de dimensión
n×m) y ~v es un vector cualquiera (de m filas). En particular, consideremos el ejemplo a continuación.
! ! ! ! !
1 1 x x+y 1 1
= =x +y , x ∈ R , y ∈ R. (38)
1 2 y x + 2y 1 2
Notar que el resultado es la suma de dos términos. Como se describe en la figura (1), el primer
término pertenece a la recta C1 , generada por la primera columna de la matriz. El segundo término
pertenece a la recta C2 , generada por la segunda columna de la matriz. De este modo, es fácil
ver que “sean cuáles sean los valores de x e y”, el resultado A~v estará en la región comprendida
entre ambas rectas, achurada en la figura (1). A dicha región, es decir, al espacio generado por las
columnas de una matriz A, le diremos el espacio columna de la matriz A y lo denotaremos con
C(A).
Figure 1: El espacio columna de la matriz A. El resultado A × ~x cae en la región achurada para cualquier
valor de x, y.
Por otra parte, si consideramos un vector cualquiera

 
v1
 v2 
 
~v = 
 ..  ,
 (39)
 . 
vm
diremos que el cuadrado de su norma es
 
v1
 v2  N
||~v ||2 = ~v > · ~v = v1 v2 . . . vm · 
X
 = v2 + v2 + . . . + v2 = vi2 .
 
.. 1 2 m (40)
.
 
  i=1
vm
13
Ası́, por ejemplo, el cuadrado de la norma del vector ~v = (1 2 3)> es ||~v ||2 = 1 + 4 + 9 = 14.
Podemos pensar en la norma como una medida del “largo del vector”.
3.3 Método de mı́nimos cuadrados

Supongamos que contamos con un set de N datos, T , al cual (como hemos adelantado) llamaremos
set de entrenamiento. Comenzamos planteando la ecuación (36) para los N datos,
~ = X · β̂~ + ~ε̂
Y ⇒ ~ε̂ = Y
~
~ − X · β̂. (41)
~
La idea será escoger el vector β̂ de modo tal que los “residuos sean lo más pequeños posibles”. Es
decir, formalmente, queremos elegir los estimadores de manera que el cuadrado de la norma del
vector de residuos, ||~ε̂||2 , sea la menor posible. Al cuadrado de la norma del vector de residuos le
diremos la suma de los cuadrados de los residuos (RSS, del inglés residual sum of squares),
N
RSS = ||ε̂||2 = ~ε̂> · ~ε̂ =
X
ε̂2i . (42)
i=1
~
~ y el vector X · β̂.
De la ecuación (41) es claro que el residuo es la diferencia entre el vector Y
Este último es un vector que “vive” en el espacio columna de la matriz de regresión X. Es decir,
~
utilizando la notación aprendida anteriormente, podemos decir que Xβ̂ ∈ C(X) para cualquier
~
vector de estimaciones β̂. Geométricamente, esto se ilustra en la figura (2).
Figure 2: Método de mı́nimos cuadrados: elegir el vector de estimaciones de manera que los residuos del
set de entrenamiento (RSS) sean los más pequeños posible (su norma).
14
A partir de la representación geométrica, se puede ver que el vector de residuos tendrá el menor largo
~
posible (es decir, la menor norma) cuando el vector X · β̂ coincida con la proyección ortogonal
~ . Por lo tanto, planteamos
del vector Y
~
~ = X · β̂.
PY (43)
La matriz P es una matriz que proyecta de forma ortogonal en el espacio columna de la matriz
X. A este “mecanismo” para encontrar los estimadores se le conoce como método de mı́nimos
cuadrados. Se le atribuye al matemático alemán Carl Gauss y al matemático francés Adrien–Marie
Legendre (Plackett, 1972).
La matriz de proyección en el espacio columna de la matriz de regresión es
P = XX+ . (44)
A su vez, la matriz X+ es la matriz pseudo–inversa de la matriz de regresión. Si las columnas de

la matriz de regresión son linealmente independientes (es decir, si ninguna columna de la matriz se
puede obtener combinando linealmente el resto de las otras columnas), entonces la matriz pseudo–
inversa es
X+ = (X> X)−1 X> . (45)
Insertando la ecuación (44) en (43) obtenemos
~
~ = X · β̂,
XX+ Y (46)
de donde es claro que la solución a la ecuación (43) es
~ ~.
β̂ = X+ Y (47)
Consecuentemente, para encontrar los estimadores que minimizan “el largo” del vector de residuos
del set de entrenamiento T , basta con multiplicar la matriz pseudo–inversa de X por el vector de
respuestas Y~.
Los estimadores de mı́nimos cuadrados también se pueden encontrar resolviendo las ecuaciones
normales. En efecto, si multiplicamos la ecuación (43) a ambos lados por X> obtenemos
~
X> PY
~ = X> X · β̂.
Como X> P = (PX)> = X> , podemos escribir la ecuación anterior de la forma
~
X> Y
~ = X> X · β̂. (48)
A este conjunto de ecuaciones se le llama ecuaciones normales. Su resolución conduce a (47).
15
3.4 Propiedades algebraicas de los estimadores de mı́nimos cuadrados
En esta sección demostraremos un conjunto de (5) propiedades que satisfacen los estimadores de
mı́nimos cuadrados. La mayorı́a de estas propiedades se cumple cuando el modelo tiene un término
de intercepto.
Primero, establezcamos la notación

      
1 X11 X12 ... X1d β̂0 β̂0 + β̂1 X11 + β̂2 X12 + . . . + β̂d X1d Ŷ1
~

 1 X21 X22 ... X2d  β̂1   β̂0 + β̂1 X21 + β̂2 X22 + . . . + β̂d X2d
  
  Ŷ2 
  
~
Xβ̂ = 
 .. .. .. ..  .  = 
..     ..  =  .  = Ŷ.(49)
  . 
. . . . .   ..   .   . 
1 XN 1 XN 2 . . . XN d β̂d β̂0 + β̂1 XN 1 + β̂2 XN 2 + . . . + β̂d XN d ŶN
~ = Xβ̂~ + ~ε̂ = Ŷ
Es decir, Y
~
+ ~ε̂ (la variable Y es la suma de la predicción y el residuo). De las
ecuaciones normales (48) es fácil notar que
~
X> (Y
~ − Ŷ ) = 0 ⇒ X> ~ε̂ = 0.
Matricialmente,
 
N
P
 ε̂i 
   i=1 
1 1 ... 1   N   
ε̂1 0
P
X ε̂

X11 i1 i
X21 . . . XN 1 
   
i=1
 

X
  
ε̂ 2 
N
 0
 
X22 . . . XN 2 
 
 12 =  P Xi2 ε̂i   ..  .
= (50)
  .    
 . .. .. ..  .
 . 
 
.
 ..
  
. . .  i=1 

ε̂N N ×1 
 .. 
0
X1d X2d . . . XN d p×N  . 

N 
P
Xid ε̂i

i=1 p×1
La primera ecuación (válida cuando la regresión tiene término de intercepto) nos dice que la suma
de los residuos es cero. Las d ecuaciones restantes nos dicen que no existe correlación entre
cada una de las variables explicativas y la serie de los residuos. Por lo tanto, para la serie
de N residuos {ε̂1 , ε̂2 , . . . , ε̂N }, existen p = d + 1 ecuaciones. Luego, los residuos tienen N − p grados
de libertad (GL), esto es, podemos elegir libremente N − p residuos y los restantes se fijan por las
p ecuaciones.
Notar además que
~
~ε̂> Ŷ ~
= ~ε̂| >{zX} β̂ = 0, (51)
0
es decir, no hay correlaciones entre la serie de predicciones y la serie de residuos.
16
~
~ = X> Ŷ
Las ecuaciones normales X> Y son
   
1 1 ... 1   1 1 ... 1  
Y1 Ŷ1
X11 X21 . . . XN 1  X X21 . . . XN 1 
   
 11
  
 Y2   Ŷ2 
    
X
 12 X22 . . . XN 2  =  12 X22
X . . . XN 2 
  .. 
    . 
 .  .
 . .. .. ..  .  . .. .. ..   . 
 .. . . . 
   .. . . . 
YN N ×1 ŶN N ×1
  
X1d X2d . . . XN d p×N X1d X2d . . . XN d p×N
La primera ecuación nos dice que
Y1 + Y2 + . . . + YN = Ŷ1 + Ŷ2 + . . . + ŶN ⇒ Y = Ŷ . (52)
Por lo tanto, la media de Y coincide con la media de las predicciones. Si en lugar de escribir
~ ~
Ŷ escribimos Xβ̂, las ecuaciones normales se pueden expresar como
   
1 1 ... 1   1 1 ... 1  
 Y1 β̂0 + β̂1 X11 + β̂2 X12 + . . . + β̂d X1d
X11 X21 . . . XN 1   X11 X21 . . . XN 1 
  
 Y2    β̂0 + β̂1 X21 + β̂2 X22 + . . . + β̂d X2d 
 
X
 12 X22 . . . XN 2  X
 . 

= 12 X22 . . . XN 2   .. .
.

 . .. .. . . . .. .. . .

 .. ..   .. .. 
  
. .
   
. .
YN β̂0 + β̂1 XN 1 + β̂2 XN 2 + . . . + β̂d XN d
   
X1d X2d . . . XN d X1d X2d . . . XN d
La primera ecuación es
N
X N
X N
X
Y1 + Y2 + . . . + YN = N β̂0 + β̂1 Xi1 + β̂2 Xi2 + . . . + β̂d Xid .
i=1 i=1 i=1
Dividiendo a ambos lados por N se concluye que la la función de regresión muestral evaluada
en las medias de las variables explicativas produce la media de la variable explicada,
es decir,
Y = β̂0 + β̂1 X 1 + β̂2 X 2 + . . . + β̂d X d . (53)
4 Análisis de varianza y bondad de ajuste

4.1 Modelos anidados
Considere un modelo con d variables explicativas: X1 , X2 , . . . , Xd . Si tenemos N datos, sabemos
que la matriz de regresión es
 
1 X11 X12 ... X1d
1

X21 X22 ... X2d 

X= .
 .. .. .. ..
. . . .


1 XN 1 XN 2 . . . XN d
17
Sabemos también que, de acuerdo con el modelo de regresión lineal (36), el vector de observaciones
de Y es la suma de un vector de predicciones y un vector de residuos,
~ = Xβ̂~ + ~ε̂ = Ŷ
Y
~ ~
+ ε̂. (54)
A este modelo, con d regresores, le diremos modelo principal. El vector de estimaciones de los
p = d + 1 parámetros ha sido obtenido por minimización de cuadrados. Por lo tanto, es claro que
~ = Xβ̂~ ⇒ β̂~ = X+ Y
PY ~.
Como hemos visto en el capı́tulo (3), la matriz P proyecta ortogonalmente en C(X) y X+ es la

matriz pseudo inversa de X.
Ahora, suponga que tenemos un modelo idéntico al anterior, pero con solo con las primeras k
variables explicativas; X1 , X2 , . . . , Xk , k < d. A este modelo le diremos modelo reducido. La
matriz de regresión es
 
1 X11 X12 ... X1k
1

X21 X22 ... X2k 
X(red)

= .
 .. .. .. ..
. . . .


1 XN 1 XN 2 . . . XN k
Es decir, la matriz X(red) está formada por las primeras k columnas de X. El modelo lineal será
~ = X(red) β̂~ (red) + ~ε̂(red) = Ŷ

Y
~ (red) ~(red)
+ ε̂ , (55)
en donde el vector de estimadores de los pred = k + 1 satisface
~ = X(red) β̂~ (red) ⇒ β̂~ (red) = X+(red) Y

P(red) Y ~.
Como sabemos, P(red) proyecta en C(X(red) ), y la matriz X+(red) es la pseudo inversa de la matriz
de regresión X(red) .
En ambos modelos, (54) y (55), la variable explicada es la misma. Además, es claro que la matriz
de regresión X(red) está “contenida” en X. Del mismo modo, el espacio columna de X(red) está
contenido dentro del espacio columna de X. Cuando esto ocurre, diremos que el modelo (55) está
anidado en el modelo (54). Gráficamente ambos modelos se representan en la figura (3). Utilizando
el teorema de Pitágoras, podemos plantear la ecuación
~ ~
k~ε̂k2 + kŶ − Ŷ (red) k2 = k~ε̂(red) k2 . (56)
| {z } | {z } | {z }
RSS ∗ RSSred
El primer término del lado izquierdo es el cuadrado de la norma del vector de residuos del modelo
principal. Como sabemos, dichos residuos tienen N − p grados de libertad. Este término es una
medida de la diferencia entre las predicciones hechas con el modelo principal y las observaciones de
18
Figure 3: En azul el modelo general. En verde el modelo reducido. El espacio columna de X es el plano
gris, mientras que el espacio columna de X(red) es la recta verde punteada.
la variable explicada. Más precisamente, es una medida de la volatilidad del efecto de las variables
no observadas al usar el modelo principal.
El término del lado derecho es el cuadrado de la norma del vector de residuos del modelo reducido.
Como sabemos también, dichos residuos tienen N − pred grados de libertad. De manera análoga
al caso anterior, este término es una medida de la diferencia entre las predicciones hechas con el
modelo reducido y los valores de Y , o más bien, una medida de la volatilidad de las variables no
observadas al emplear el modelo reducido, que tiene menos regresores.
Finalmente, el segundo término del lado izquierdo (*) es una medida de la diferencia entre las
predicciones del modelo principal y las predicciones del modelo reducido. Los grados de libertad de
este término son p − p1 , de modo que la suma de los grados de libertad del lado izquierdo sea igual
a los grados de libertad del lado derecho,
GLRSS + GL∗ = GLRSSred . (57)

~ ~
Note que si el término kŶ − Ŷ (red) k2 es pequeño, entonces el modelo principal no difiere mucho del
modelo reducido. En este caso, RSSred serı́a similar a RSS. En cambio, si es grande, entonces las
predicciones del modelo principal son muy diferentes a las del modelo reducido. Para evaluar de
manera más precisa qué significa “ser pequeño” o “ser grande”, podemos dividir la expresión (56)
por RSSred , obteniendo
~ ~
kŶ − Ŷ (red) k2 RSS
=1− . (58)
RSSred RSSred
Como RSS ≤ RSSred , la fracción del lado izquierdo se mueve entre 0 y 1. Será igual a 1 si RSS = 0,
es decir, si las predicciones del modelo principal son idénticas a la variable Y (ajuste perfecto a los
19
Modelo Suma de Cuadrados GL Suma Media de Cuadrados F
~ ~ ~ ~
Principal v/s Reducido kŶ − Ŷ red k2 p − pred kŶ − Ŷ red k2 /(p − pred ) (??) (??)/(?)
Principal RSS N −p RSS/(N − p) (?) –
Reducido RSSred N − pred RSSred /(N − pred ) –
Table 5: Tabla de análisis de varianza (ANOVA): permite comparar el modelo general versus el modelo
reducido.
datos). Será igual a 0 si las predicciones del modelo principal son idénticas a ls predicciones del
modelo reducido. Para evaluar si resulta conveniente trabajar con el modelo principal o el modelo
reducido se puede utilizar un tabla de análisis de varianza (5).
4.2 Coeficiente de determinación

Consideremos, como modelo reducido, un modelo sin variables explicativas (k = 0). Es decir, al
modelo
Y = β0 + ε.
En este caso, si contamos con N datos, la matriz de regresión es
 
1
1
 
(red)
X =
 .. 
 . (59)
.
1 N ×1
Es fácil mostrar (ver problema 8.2) que el estimador de mı́nimos cuadrados del parámetro de
intercepto es
(red) ~ =Y,
β̂0 = X+(red) Y
es decir, la media muestral de Y. Por lo tanto,
 
Y
Y 
 
~ (red) (red) (red) ~
Ŷ =X β̂0  ..  = Y .
= 
.
Y
Ası́, el término * en (56) resulta

N
~ ~ ~ ~ k2 = X(Y
~i − Y )2 ≡ ESS.
kŶ − Ŷ (1) k2 = kŶ − Y (60)
i=1
Esto muestra que el cuadrado de la norma de la diferencia entre la predicción del modelo principal y
la predicción del modelo sin regresores es simplemente la suma de los cuadrados de las desviaciones
20
de las predicciones del modelo principal con respecto a la media muestral. A esta cantidad le diremos
suma de cuadrados explicados, y la denotaremos con la sigla ESS (del inglés, explained sum of
squares). Es una medida de “cuánto más explica” el modelo principal que el modelo sin regresores.
Por otra parte, cuando el modelo reducido es el modelo sin regresores, es claro que
N
~ ~ −Y
= k ~ε̂(red) k2 = kŶ (red) − Y
~ k2 = kY ~ k2 =
X
RSSred (Yi − Y )2 ≡ TSS.
i=1
Esto es, la suma de los cuadrados de los residuos del modelo reducido (sin regresores) es simplemente
la suma de los cuadrados de las desviaciones de Y con respecto a su media. A esta cantidad le
decimos la variación total de Y o suma total de cuadrados, y la denotaremos con las siglas
TSS (del inglés, total sum of squares).
Ası́, la expresión (56) nos dice que
RSS + ESS = TSS. (61)
El primer término del lado izquierdo está asociado a la varianza o volatilidad de los residuos. El
segundo, se asocia a la volatilidad de las predicciones. El término del lado derecho se asocia a la
varianza de la variable Y en la muestra. Por otra parte, la expresión (58) resulta
ESS RSS
R2 ≡ =1− . (62)
TSS TSS
A la razón ESS/TSS= 1−RSS/TSS le diremos coeficiente de determinación y la denotaremos
con el sı́mbolo R2 . Es un porcentaje que nos dice que fracción de la variación total de Y en la
muestra es explicada con el modelo de regresión. Es fácil ver que R2 = 0 cuando ESS=0, es decir,
cuando el modelo explica lo mismo que un modelo sin regresores. Al contrario, R2 = 1 cuando
RSS=0, lo cual ocurre cuando las predicciones son idénticas a los verdaderos valores de Y (ajuste
perfecto a los datos del set de entrenamiento). En general, al trabajar con cortes transversales,
R2 superiores a 50% son considerados altos. Al trabajar con series de tiempo se suelen obtener
coeficientes de determinación más altos que en cortes transversales.
En el problema 9.4 se le pide demostrar que
N
X
ESS = (Ŷi − Y )(Yi − Y ).
i=1
Con esto, el coeficiente de determinación se puede expresar del siguiente modo:

N N N
(Ŷi − Y )(Yi − Y ) (Ŷi − Y )(Yi − Y ) (Ŷi − Y )(Yi − Y )
P P " P #2
ESS i=1 i=1 i=1
R2 = = N
× N
= s s . (63)
TSS N N
(Yi − Y )2 (Ŷi − Y )2
P P
(Ŷi − Y )2 (Yi − Y )2
P P
i=1 i=1 i=1 i=1
| {z }
1
21
Lo cual muestra que el coeficiente de determinación puede entenderse como el cuadrado de la
correlación entre las predicciones y las observaciones de Y .
Cuando el modelo de regresión tiene una sola variable explicativa es fácil demostrar que el coefi-
ciente de determinación es el cuadrado de la correlación entre la variable explicada Y y la variable
explicativa X1 . Se le pide demostrar esto en el problema 9.5.
Para comparar dos modelos en términos del coeficiente de determinación, la variable explicada en
ambos modelos debe ser la misma, y el tamaño del set de entrenamiento de ambos modelos debe
ser el mismo.
Por último, el R2 es no-decreciente en la medida que se incrementan las variables explicativas. Para
corregir este efecto resulta más conveniente utilizar el coeficiente de determinación ajustado,
denotado con R̄2 y definido según
RSS/(N − p)
R̄2 = 1 − . (64)
TSS/(N − 1)
Al aumentar la cantidad de regresores RSS disminuye (o queda igual), mientras que la fracción en el
numerador 1/(N − p) aumenta, es decir, “penaliza” la incorporación de más variables explicativas.
A diferencia del R2 , el coeficiente de determinación ajustado podrı́a ser menor a cero. En ese caso,
reportamos simplemente que R̄2 = 0.
5 Propiedades Estadı́sticas
5.1 Estimación Insesgada
Partimos observando que
~ ~ + ~ε) = X+ Xβ~ + X+ ~ε = β~ + X+ ~ε,
~ = X+ (Xβ
β̂ = X+ Y (65)
~
es decir, los estimadores de mı́nimos cuadrados β̂ se escriben como la suma de los “verdaderos”
parámetros y un término adicional, que depende de la matriz de regresión y de los errores. Notar
que en la derivación de este resultado hemos usado el supuesto (27), es decir, que el modelo es lineal.
Este resultado es útil para calcular el valor de expectación de los estimadores. En efecto, notemos
que
~ ~ + E(X+ ~ε) = β~ + E(X+ ~ε).

E(β̂) = E(β~ + X+ ~ε) = E(β) (66)
~
La expresión anterior nos dice que el valor esperado de β̂ es la suma de los “verdaderos parámetros”
y un término adicional, llamado sesgo. Veamos a continuación las condiciones que se requieren para
que dicho sesgo sea nulo, o sea, para que los estimadores de mı́nimos cuadrados sean insesgados.
Notar que
Z Z
+ +
E(X ~ε) = dXfX (X)E(X ~ε|X) = dXfX (X)X+ E(~ε|X). (67)
22
La función fX (X) denota la densidad de probabilidades de todas las observaciones de todos los
regresores (que hemos asumido que son variables continuas; si no fuera el caso, entonces la integral
se reemplaza por una suma). Como el lector debiese saber, la matriz de regresión contiene N × p
variables, pues cada una de las d variables explicativas es observada N veces. Ası́, fX (X) es la
distribución multivariada de N × d variables. Por otra parte, E(~ε|X) denota el valor esperado del
vector de errores condicionado en las N observaciones de los d regresores. Para que la estimación
sea insesgada debemos asumir que este término sea cero.
Supuesto 2. Los regresores son estrictamente exógenos.
E(~ε|X) = 0. (68)
Si este supuesto se cumple, diremos que las variables explicativas son estrictamente exógenas.
Conceptualmente, esto quiere decir que ninguno de los errores (ε1 , ε2 , . . . , εN ) tiene alguna forma
de correlación con las N observaciones de los d regresores. Es importante que el lector comprenda
esta esta idea.
Ejemplo 5.1. Para ilustrar el concepto consideremos el siguiente ejemplo. Suponga que la variable
“Asesinatos” representa la tasa de homicidios en una ciudad, durante un cierto año. Asuma –
además– que dicha variable será explicada en términos de la variable “Policı́as”, la cual representa
el número de policı́as per capita en la ciudad. La relación entre ambas variables se describe a través
de un modelo de regresión lineal
Asesinatos = β0 + β1 Policı́as + ε.
La variable ε, como el lector sabe, contiene el efecto del resto de las variables que afectan la tasa de
homicidios, además del número de policı́as per capita. Por ejemplo, por mencionar alguna, el nivel
de actividad del narcotráfico. Suponga ahora que contamos con una serie de tiempo para N = 4
años, esto es,
Asesinatos1 = β0 + β1 Policı́as1 + ε1
Asesinatos4 = β0 + β1 Policı́as4 + ε4 .
¿El error del año 2 (por ejemplo, la “actividad del narcotráfico” del año 2) está correlacionada con el
número de policı́as per capita del año 2? Se podrı́a argumentar que no, pues la actividad de narco-
tráfico de ese año podrı́a no alcanzar a “reaccionar” al tamaño de las policı́as de ese mismo año.
Cuando eso ocurre, esto es, cuando el i-ésimo error (εi ) no tiene ninguna forma de correlación con
las i-ésimas observaciones de las variables explicativas (Xi1 , Xi2 , . . . , Xid ), diremos que los regresores
son contemporáneamente exógenos.
23
¿El error del año 2 (al igual que antes, pensemos en la “actividad del narcotráfico” del año 2)
podrı́a tener alguna forma de correlación con el número de policı́as per capita del año 1? Se podrı́a
argumentar que sı́. Por ejemplo, si la cantidad de policı́as del año 1 fue “alta”, se podrı́a esperar
que el narcotráfico del año siguiente sea “bajo”. Si ese fuera el caso, dirı́amos que el i-ésimo error
está correlacionado con observaciones pasadas de los regresores (Xj1 , Xj2 , . . . , Xjd , j < i). De modo
similar, el error del año 2 podrı́a tener alguna forma de correlación con las policı́as del año siguiente
(año 3). En efecto, se podrı́a esperar que, si el narcotráfico del año 2 fue “alto”, el número de
policı́as del año 3 será “alto” (es decir, ε2 afecta al futuro, Policias3 ). En este caso, el i-ésimo error
tendrı́a correlaciones con observaciones futuras de los regresores (Xj1 , Xj2 , . . . , Xjd , j > i).
El supuesto (68) establece que el error del periodo i no tiene alguna forma de correlación con
observaciones pasadas, contemporáneas y futuras de los regresores. Si bien hemos ilustrado el
concepto usando como ejemplo una serie de tiempo, en donde tiene sı́ sentido del hablar de pasado,
presente y futuro, el concepto se extiende de la misma manera a cortes transversales. En series de
tiempo, tı́picamente este supuesto es violado, mientras que en cortes transversales es más común
que se cumpla.
Para que la estimación sea insesgada se requiere que la exogeneidad se cumpla de modo estricto.
Sin embargo, para otras propiedades (como la consistencia) se requiere exogeneidad contemporánea,
que es una forma más débil del supuesto. Es necesario enfatizar que asumir que los regresores sean
estrictamente exógenos no impone ninguna restricción sobre las eventuales correlaciones que puedan
existir entre la serie de errores (ε1 , ε2 , . . . , εN ) o la serie de observaciones de la variable explicada
(Y1 , Y2 , . . . , YN ).
Por último, este supuesto implica que los errores tienen media cero. En efecto,
Z
E(~ε) = dXfX (X)E(~ε|X) = 0.
5.2 Varianza de los estimadores de mı́nimos cuadrados
Comenzamos calculando la varianza de los estimadores,
~ ~ ~ ~ ~>

Var(β̂) = E [β̂ − β] · [β̂ − β]

= E [X+ ~ε] · [X+ ~ε]>

= E X+ ~ε · ~ε> [X+ ]>
Z
= dXfX (X)E X+ ~ε · ~ε> [X+ ]> X

Z
= dXfX (X)X+ E ~ε · ~ε> X [X+ ]> . (69)

24
A la matriz de N × N
 
E(ε21 |X) E(ε1 ε2 |X) E(ε1 ε3 |X)
. . . E(ε1 εN |X)
 E(ε2 ε1 |X) E(ε22 |X) E(ε2 ε3 |X)
. . . E(ε2 εN |X)
 
 
E(ε23 |X)

E ~ε · ~ε X =  E(ε3 ε1 |X)
> E(ε3 ε2 |X) . . . E(ε3 εN |X) (70)


 .. .. .... .. 

 . . .. . 

E(εN ε1 |X) E(εN ε2 |X) E(εN ε3 |X) . . . E(ε2N |X)
le diremos matriz de covarianza de los errores. Como los errores tienen media cero, los términos en
la diagonal principal son las varianzas de ε1 , ε2 , . . . , εN . Los términos fuera de la diagonal son las
covarianzas entre los diferentes errores. Para seguir adelante haremos dos supuestos importantes.
En primer lugar, asumiremos que las varianzas de los errores son iguales.
Supuesto 3. Los errores son homocedásticos.
E(ε21 |X) = E(ε22 |X) = . . . = E(ε2N |X) = σ 2 . (71)
Ejemplo 5.2. Para ilustrar este concepto consideremos el modelo de regresión lineal simple,
Nota EME322 = β0 + β1 Estudio + ε,
en donde las variables “Nota EME322” y “Estudio” son la nota obtenida en el curso EME322 y
el tiempo (horas) de estudio semanal dedicado al curso, respectivamente. El término ε contiene el
resto de las variables que afectan el desempeño en el curso. Por ejemplo, por mencionar alguna, las
habilidades personales. Suponga –además– que obtendremos muestras de N = 4 personas, es decir,
Nota EME3221 = β0 + β1 Estudio1 + ε1

Además, asuma que la matriz de regresión es

 
1 0
1 1
X= . (72)
 
1 2
1 3
Esto significa que, en todas las muestras, el primer alumno será una persona que estudia 0 horas/se-
mana, el segundo una persona que dedica 1 hora semanal al estudio, y ası́. En algunas muestras, las
habilidades del primer alumno (que no estudia) serán altas; en otras, serán bajas. Ası́, en repetidas
25
muestras, las habilidades del primer alumno de la lista (que no estudia) exhibirán una cierta volatil-
idad o dispersión. Si los errores son homocedásticos, dicha volatilidad será igual a la volatilidad de
las habilidades del segundo alumno de cada muestra (que estudia una hora), y también igual a la
volatilidad de las habilidades del tercer alumno (que estudia dos horas) y de la cuarta persona (que
estudia tres horas). Este comportamiento se ilustra en las figuras (4) y (5).
8
2.0 + 1.3 × Estudio
6
Nota EME322
0
0 0.5 1 1.5 2 2.5 3
Estudio
Figure 4: 25 muestras de tamaño N = 4 (N × 25 = 100 puntos). En todas las muestras, la matriz de

regresión es la matriz (72). Comportamiento homocedástico.
Si los errores no fueran homocedásticos, en cuyo caso diremos que exhiben heterocedasticidad,
entonces la varianza de las habilidades del primer alumno de cada muestra diferirán de la vari-
anza de las habilidades del segundo alumno de cada muestra, por ejemplo. El comportamiento
heterocedástico se ilustra en las figuras (6) y (7)
La segunda suposición importante es que los errores no tienen correlación entre sı́. Si esto ocurre
diremos no existe correlación serial o auto-correlación.
Supuesto 4. Ausencia de auto-correlación.
E(εi εj |X) = 0, ∀ i 6= j. (73)
En el ejemplo (5.2), si se cumple este supuesto, entonces las habilidades de los alumnos que no
estudian no estarı́an correlacionadas con las habilidades de los alumnos que estudian 1, 2 o 3 horas.
En el ejemplo (5.1), significarı́a no hay correlación entre el grado de narcotráfico de los distintos
años (1, 2, 3, y 4).
26
10 10
8 8
Frequency
Frequency
6 6
4 4
2 2
0 0
−2 0 2 −2 0 2 4
ε1 ε2
10 10
8 8
Frequency
Frequency
6 6
4 4
2 2
0 0
−2 0 2 4 −2 0 2 4
ε3 ε4
Figure 5: En 25 muestras, los residuos (ε1 , ε2 , ε3 , ε4 ) se distribuyen en torno 0 con la misma dispersión. En
todas las muestras, la matriz de regresión es la matriz (72).
2.0 + 1.3 × Estudio
15
Nota EME322
10
0
0 0.5 1 1.5 2 2.5 3
Estudio
Figure 6: 25 muestras de tamaño N = 4 (100 puntos). Comportamiento heterocedástico. En este caso, la

varianza aumenta conforme las horas de estudio aumentan. En todas las muestras, la matriz de regresión es
la matriz (72).
27
10 10
8 8
Frequency
Frequency
6 6
4 4
2 2
0 0
−2 −1 0 1 2 −4 −2 0 2 4
ε1 ε2
10 10
8 8
Frequency
Frequency
6 6
4 4
2 2
0 0
−5 0 5 10 −5 0 5 10
ε3 ε4
Figure 7: En 25 muestras, los residuos (ε1 , ε2 , ε3 , ε4 ) se distribuyen en torno 0 con dispersión creciente
con el ı́ndice. En todas las muestras, la matriz de regresión es la matriz (72).
Si los supuestos (71) y (73) son válidos, es claro que la matriz de covarianza (70) se puede escribir
como
   
σ2 0 0 ... 0 1 0 0 ... 0
 0 σ2 0 ... 0 0 1 0 ... 0
   
 
  
2

E ~ε · ~ε> X =  0 0 σ ... 0 2 0 0 1 . . .
=σ  0  = 1σ 2 (74)

 . .. .. .. ..  . . . . .. 
 .. . . . .  .. .. .. .. .
   
0 0 0 . . . σ2 0 0 0 ... 1
Por lo tanto, la varianza de los estimadores (69) resulta

Z Z
~
h i
+ >
Var(β̂) = σ 2 +
dXfX (X)X [X ] = σ 2
dXfX (X)(X> X)−1 = σ 2 E (X> X)−1 . (75)
Esta expresión nos dice que, cuando la matriz de regresión es X, la varianza de los estimadores es
~
Var(β̂|X) = (X> X)−1 σ 2 . (76)
Ejemplo 5.3. Considere la regresión de la nota (Y ) en el tiempo de estudio (X1 ), medido en

horas/semana, Y = β0 + β1 X1 + ε. Considere el set de entrenamiento T , formado por N = 3
personas. Asumiendo que todos los supuestos vistos hasta ahora son válidos, calcule los estimadores
de mı́nimos cuadrados, la varianza de cada uno de los estimadores y la covarianza entre ambos.
Exprese las varianzas y covarianza en términos de la varianza de los errores homocedásticos σ 2 .
28
ID Y X1
1 3.0 1
1 3.8 2
1 5.0 3
Table 6: Set de N = 3 datos T .
5.3 Teorema de Gauss-Markov

5.4 Estimación de la varianza de los errores (σ 2 )
5.5 Normalidad de errores
6 Ejercicios Capı́tulo 1
Ejercicio 6.1. En economı́a laboral, la ecuación de Mincer (Mincer, 1974) regresa el logaritmo
(natural) de los ingresos de un individuo (Y ) sobre los los años de experiencia laboral (X1 ), el
cuadrado de los años de experiencia laboral (X2 ) y los años de educación (X3 ). Por lo tanto,
X~ = (X1 , X2 , X3 )> . a) Explique qué tipo de variable son los regresores y el regresando del modelo.
b) Por las complejidades para medir y comparar los años de educación entre diferentes individuos,
asuma que se considera el máximo nivel de educación alcanzado, el cual se clasifica en 4 tipos:



sin educación secundaria

educación secundaria

.


educación universitaria (licenciatura)


postgrado (magı́ster y/o Phd)

Explique qué tipo de variable es ahora la variable educación. c) Bajo este esquema, para modelar
la educación se definen las siguientes 3 variables explicativas:
 
1 si tiene educación secundaria, 1 si tiene educación universitaria,
X3 = X4 =
0 en otro caso. 0 en otro caso.

1 si tiene postgrado,
X5 = (77)
0 en otro caso.
Usted encuesta a N = 4 personas. La primera percibe ingresos de 10 USD/hora, tiene 4 años de

experiencia laboral y su máximo nivel de educación es una licenciatura. La segunda persona percibe
ingresos de 9.5 USD/hora, tiene 3 años de experiencia laboral y no tiene educación secundaria.
La tercera persona recibe ingresos de 11.7 USD/hora, tiene 5 años de experiencia y cuenta con
un magı́ster. La cuarta persona encuestada percibe ingresos de 14.3 USD/hora, tiene 5 años de
experiencia laboral y su máximo nivel de educación es la educación secundaria. Escriba la tabla de
29
datos (3) asociada a esta encuesta. Luego escriba, por separado, la matriz de regresión X. ¿Si se
vuelve a tomar la encuesta cambia la matriz de regresión?
Ejercicio 6.2. ¿Cual es el modelo general que describe la relación entre el vector de variables
~ y la variable explicada Y ? Escriba el modelo y explique sus componentes.
explicativas X
Ejercicio 6.3. ¿Cuál es la diferencia entre una función de regresión y una función de clasificación?
Explique y mencione un par de ejemplos que ilustren la diferencia.
Ejercicio 6.4. A usted le interesa estudiar la producción Y de un terreno (kg/ha) en términos de

la cantidad de fertilizante (X1 ) aplicado. Hay tres tipos de “dosis”. La primera consiste en aplicar
50 kg/ha. La segunda dosis en aplicar 30 kg/ha, y la tercera dosis consiste en aplicar 10 kg/ha.
Considere dos escenarios. i) Usted dispone de un gran terreno de 900 ha de superficie. Divide su
terreno en 90 terrenos más pequeños, cada uno de 10 ha. Dichos terrenos son agrupados aleato-
riamente en 3 grupos. A los terrenos del grupo 1 le aplica la dosis 1, a los del grupo 2 la dosis
tipo 2 y a los terrenos del grupo 3 le aplica la dosis 3. ii) Suponga ahora que usted cuenta con 30
terrenos (cada uno de 10 ha) ubicados en el norte de Chile, 30 terrenos (de 10 ha cada uno) en la
zona central y 30 terrenos (cada uno de 10 ha) ubicados en el sur. A los terrenos del norte le aplica
la dosis 1, a los del centro la dosis 2 y a los del sur la dosis tipo 3.
Diremos que un regresor puede considerarse exógenos cuando no existe ninguna forma de correlación
entre éste y el término de error. Analice cada escenario, explicando si X1 puede considerarse exógeno
y si el experimento permitirı́a estimar el efecto ceteris paribus de la cantidad de fertilizante sobre
la producción.
Ejercicio 6.5. La tasa de asesinatos de una ciudad (Y ) se estudia en términos del número de
policı́as per capita (X1 ). Por lo tanto, el vector de variables explicativas está formado por d = 1
regresores, X ~ = (X1 ). Usted cuenta con N = 18 datos, que describen la evolución de las variables
~ Y ) en el tiempo: el dato i = 1 representa al año 2005, i = 2 al año 2006 y ası́ hasta el dato
(X,
i = 18 (que representa al año 2022). Para este conjunto de datos, usted plantea el modelo general
(6), esto es,
~ 1 ) + ε1 ,
Y1 = g(X
~ 2 ) + ε2 ,
Y2 = g(X
..
.
~ 18 ) + ε18 .
Y18 = g(X
¿Qué tipo de datos constituye su muestra? ¿Cree usted que podrı́a existir alguna correlación entre
~ j = (Xj1 ) (la j-ésima observación de la variable X1 , es decir, el
εi (el error del i-ésimo año) y X
número de policı́as per capita durante el j-ésimo año). Explique.
Ejercicio 6.6. Considere la matriz de regresión X. Explique en que contexto la matriz cambia si
se vuelven a generar los datos.
30
Ejercicio 6.7. Usted quiere estudiar la corriente Y que circula a través de un objeto, en base a
las variables explicativas X1 (voltaje aplicado sobre el objeto), X2 (largo del objeto) y X3 (área
transversal del objeto). La corriente se mide en ampere (A), el voltaje en volts (V ), el largo en
centı́metros (cm) y el área en cm2 . Primero, usted aplica un voltaje de 10 V sobre un objeto de 5
cm y 25 cm2 , registrando una corriente de 1 A. Luego, un voltaje de 10 V sobre un objeto de 10
cm y 25 cm2 , registrando una corriente de 0.5 A. Finalmente, un voltaje de 20 V sobre un objeto
de 10 cm y 40 cm2 , registrando una corriente de 0.25 A. Escriba la matriz de regresión. ¿Cambia
dicha matriz si se vuelve a repetir el experimento? En otras palabras, ¿las variables X1 , X2 y X3
son variables aleatorias?
Ejercicio 6.8. Suponga que estudiará la nota de econometrı́a de un individuo (Y ) en términos de

las variables X1 (promedio de horas de estudio por semana) y X2 (promedio de horas de descanso por
semana). Para definir la función de regresión usted recopila información acerca de N = 4 individuos.
El primer individuo obtuvo nota 5.0, estudió 2.5 horas/semana y descansó 42 horas/semana. El
segundo, obtuvo nota 5.5, estudió 3.2 horas/semana y descansó 40.1 horas/semana. El tercero
individuo de la muestra obtuvo nota 3.5, estudió 0.5 horas/semana y descansó 39.6 horas/semana.
Finalmente, el cuarto obtuvo nota 7.0, estudió 7.5 horas/semana y descansó 38.6 horas/semana.
Escriba la matriz de regresión. ¿Las variables X1 y X2 son variables aleatorias?
Ejercicio 6.9. ¿Qué es una serie de tiempo y qué es un corte transversal? Explique y mencione
un par de ejemplos que ilustren la diferencia.
Ejercicio 7.1. Sea Y el logaritmo natural de la demanda D de un cierto commodity (variable
~ =X
explicada). Considere la función de regresión lineal g(X) ~ en donde el vector de variables
~ > β,
~ y el vector de parámetros β~ respectivamente son
explicativas X
   
1 1
~
X =  ln(P ) 
  ~
β = −0.5 .
 
ln(Ps ) 1.1
La variable P es el precio del commodity y la variable Ps el precio de un sustituto.
De acuerdo a este modelo, ¿cuál serı́a la variación porcentual de la demanda si el precio aumenta
en 1% y el resto de las variables se mantienen fijas? La demanda, ¿se comporta de modo elástico o
in-elástico? ¿Cuál serı́a la variación porcentual si el precio del sustituto se incrementa en 1%? La
elasticidad cruzada de la demanda, ¿resulta menor o mayor a 1? Nota: Considere la aproximación
(1 + a)b ≈ 1 + ba, válida cuando |a| 1.
~ sin notación vectorial, esto es,
Solución.- Partimos escribiendo la función de regresión g(X)
 
1
~ ~ >~
g(X) = X β = 1 ln(P ) ln(Ps ) −0.5 = 1 − 0.5 ln(P ) + 1.1 ln(Ps ).
 
1.1
31
De esta manera, el modelo lineal propuesto es
ln(D) = 1 − 0.5 ln(P ) + 1.1 ln(Ps ) + ε. (78)

Si aumentamos el precio P en 1%, es decir, el nuevo precio será P (1 + 0.01), y el resto de las
variables explicativas y el término de error se mantienen fijos, obtenemos
ln(D0 ) = 1 − 0.5 ln[P (1 + 0.01)] + 1.1 ln(Ps ) + ε. (79)
Restando la ecuación (78) a (79), obtenemos
ln(D0 ) − ln(D) = −0.5 ln[P (1 + 0.01)] + 0.5 ln(P )
ln D0 /D

= −0.5 ln(1 + 0.1)
ln D0 /D = ln(1 + 0.01)−0.5

D0
= (1 + 0.01)−0.5 ≈ 1 − 0.5 × 0.01.
D
Ası́,
D0
− 1 = −0.005
D
D0 − D
= −0.005.
D
En consecuencia, la demanda disminuye en 0.5%. La elasticidad, , es el valor absoluto del cambio
porcentual de la demanda sobre el cambio porcentual del precio. Por lo tanto,

0.005
= = 0.5 (80)

0.01
Notar que la elasticidad es el valor absoluto del parámetro β1 . Como ε < 1 es claro que el commodity
se comporta de modo in-elástico. Para estudiar el comportamiento de la demanda con respecto al
precio del sustituto procedemos de modo análogo.
ln(D0 ) = 1 − 0.5 ln(P ) + 1.1 ln[Ps (1 + 0.01)] + ε. (81)
Restando la ecuación (78) a (81), obtenemos
ln(D0 ) − ln(D) = 1.1 ln[Ps (1 + 0.01)] − 1.1 ln(Ps )
ln D0 /D

= 1.1 ln(1 + 0.1)
ln D0 /D = ln(1 + 0.01)1.1

D0
= (1 + 0.01)1.1 ≈ 1 + 1.1 × 0.01.
D
Ası́,
D0 − D
= 0.011.
D
La elasticidad cruzada es 0.011/0.01 = 1.1 (el valor de β2 ), de modo que la demanda del commodity
es elástica con respecto a cambios de precio del sustituto.
32
Ejercicio 7.2. Considere el siguiente modelo de regresión lineal
~ > β~ + ε,
Y =X
en donde Y es el tiempo que un individuo tarda en correr una carrera de 10 km (medido en
minutos). El vector de variables explicativas es X ~ = (1 X1 X2 X3 )> , en donde el regresor X1
corresponde a las horas de entrenamiento diarias (D) del deportista, X2 es el cuadrado de las horas
de entrenamiento (X2 = D2 ), y X3 es la calidad promedio de la nutrición, la cual se evalúa con
nota del 1 al 7, siendo 1 la peor calidad y 7 la mejor calidad. Asuma que el vector de parámetros
es β~ = (50 − 10 2 − 1)> . Haga un gráfico de la variable Y versus la variable D, asumiendo que
el resto de las variables se mantienen fijas. Luego, calcule ∂Y /∂D. ¿El cambio marginal del tiempo
con respecto a las horas de entrenamiento es decreciente, constante o creciente? Posteriormente,
haciendo ∂Y /∂D = 0 encuentre las horas óptimas de entrenamiento diario, esto es, las horas de
entrenamiento diarias que minimizan el tiempo de carrera. Por último, si la calidad de la nutrición
se evalúa con nota 4.0, ¿cuál es el la predicción del tiempo mı́nimo que se demora el deportista en
terminar la carrera? ¿Cuál serı́a este tiempo si la calidad de la nutrición es 7.0?
Ejercicio 7.3. Usted está interesado en estudiar el efecto de un cierto tipo de fertilizante sobre la
producción de un terreno. Para ello define las siguientes variables:
Y = producción (kilos cosechados por hectárea),
X = cantidad de fertilizante aplicado (kilos por metro cuadrado)
La relación entre ambas variables será descrita a través del modelo de regresión lineal simple
Y = β0 + β1 X + ε.
Asuma que β0 = 4000 y β1 = 100.
a) Indique en cuánto cambiará la producción de un terreno si la cantidad de fertilizante aplicado
aumenta en 1 kg/m2 y el resto de las variables se mantienen fijas.
b) Prediga la producción de un terreno al que no se le aplica fertilizante y la producción de un
terreno al que se le aplican 2 kg/m2 . ¿Qué factores podrı́an hacer que la predicciones no sean
idénticas a la producción real? En el modelo de regresión, ¿qué término describe el efecto de dichos
factores? Explique.
Ejercicio 7.4. a) ¿Qué es la especificación de la forma funcional? Dé un par de ejemplos que
ilustren este concepto. b) Sean X1 , X2 y X3 tres diferentes variables explicativas de la variable Y .
De los siguientes modelos, ¿cuáles se ajustan al supuesto no 1 (14) y al modelo general (6)? En caso
que su respuesta sea afirmativa, escriba el modelo usando la notación vectorial (19).
1
i) Y = β0 + β1 X1 + β2 X2 + β3 X1 X2 + β4 X12 + β5 + β6 X3 + ε,
X2
1
ii) Y = −(β
+ ε,
1+e 0 +β 1 X1 +β2 X2 )
β1 X2 − X3 /β5
iii) Y = + ε,
1 + β0 + β1 X1 + β2 X2 + β3 X3
iv) ln(Y ) = β0 + β1 X1 + β2 X2 + β3 X3 + β4 ln(X3 ) + ε.
33
c) Considere el siguiente modelo Y = AX1β1 X2β2 eε , en donde Y es la variable explicada, X1 y X2 las
variables explicativas, ε el término de error, y A es una constante. Obviamente, este modelo no se
ajusta directamente a la estructura (15). ¿Es posible aplicar alguna transformación de modo que el
modelo se pueda escribir como un modelo de regresión lineal? Si es ası́, aplique dicha transformación
y escriba el modelo de modo linealizado.
Ejercicio 7.5. Considere el problema 6.1, en donde usted calculó X para una muestra de N = 4
~ . Luego, utilizando la expresión (27) y asumiendo que el
datos. Escriba el vector de respuestas Y
~
vector de parámetros es β = (−0.5 0.1 0.2 − 0.1 − 0.03 1)> , obtenga el vector de errores ~ε.
Posteriormente, calcule la suma de los cuadrados de los errores,
N
||~ε||2 = ~ε> · ~ε =
X
ε2i .
i=1
Nota: recuerde que en (27) la matriz X es la matriz de regresión aumentada.
Ejercicio 7.6. Vuelva al problema (6.7). Escriba Y~ . Asumiendo que β~ = (4.2 0.1 − 0.2 − 0.1)>
obtenga ~ε y la suma de los cuadrados de los errores, definida en el problema anterior (7.5).
~ . Asumiendo
Ejercicio 7.7. En el problema (6.8) usted obtuvo X. Escriba el vector de respuestas Y
~ >
que β = (−3.9 0.5 0.18) obtenga ~ε y la suma de los cuadrados de los errores, definida en el
problema (7.5). Finalmente, calcule el costo absoluto, o suma de los errores absolutos,
N
X
|εi |.
i=1
Ejercicio 8.1. Considere el siguiente modelo de regresión lineal
Y = β0 + β1 X1 + ε,
en donde la variable Y representa el peso de un individuo (kg) y el regresor X1 es la estatura (mts).

Considere los sets de datos a continuación. Utilice el set de entrenamiento T para construir la función
ID Y X1 ID Y X1
1 70 1.77 1 69 1.80
2 73 1.84 2 81 1.81
3 82 1.76 3 104 2.00
4 72 1.73 4 74 1.65
Table 7: Set de entrenamiento T (izquierda) y set de test T 0 (derecha).
de regresión muestral a través del método de mı́nimos cuadrados. Calcule RSS. Posteriormente,
evalúe la calidad de su modelo calculando RSS usando el set de test T 0 .
34
Nota: La matriz inversa, A−1 , de una matriz, A, de 2 × 2 se puede calcular explı́citamente a través
de las siguientes expresiones:
! !
a b 1 d −b
A= , A−1 = . (82)
c d ad − bc −c a
Solución.- La matriz de regresión (ampliada) es
 
1 1.77
1 1.84
X= .
 
1 1.76
1 1.73
La matriz transpuesta X > es
!
> 1 1 1 1
X = .
1.77 1.84 1.76 1.73
Luego,
!
> 4 7.1
X X= (83)
7.1 12.609
Usando la expresión para la matriz inversa dada en el enunciado,
!
> −1 1 12.609 −7.1
(X X) = (84)
0.026 −7.1 4
La matriz pseudo-inversa es
! !
1 12.609 −7.1 1 1 1 1
X + = (X > X)−1 X > =
0.026 −7.1 4 1.77 1.84 1.76 1.73
!
1 0.042 −0.455 0.113 0.326
= .
0.026 −0.02 0.26 −0.06 −0.18
Finalmente, los estimadores se obtienen haciendo
 
70 ! !
~ ~ = 1 0.042 −0.455 0.113 0.326 73 94.73
β̂ = X + Y  = . (85)
 
0.026 −0.02 0.26 −0.06 −0.18 82 −11.53
72
~ = 94.73−11.53X1 . Con la función de regresión muestral podemos
De este modo, el modelo es ĝT (X)
calcular el cuadrado de los residuos utilizando el set de entrenamiento y el set de prueba, como se
exhibe en la tabla (8). Con esto,
N
X =4
RSST = ε̂2i = 83.88
i=1
N
X =4
RSST 0 = ε̂2i = 1124.93
i=1
35
ID Y X1 ~
ĝT (X) ε̂2 ID Y X1 ~
ĝT (X) ε̂2
1 70 1.77 74.31 18.56 1 69 1.80 73.96 24.62
2 73 1.84 73.50 0.25 2 81 1.81 73.85 51.18
3 82 1.76 74.42 57.41 3 104 2.00 71.65 1046.27
4 72 1.73 74.77 7.67 4 74 1.65 75.69 2.86
Table 8: Cálculo de residuos, usando T (izquierda) y el set de test T 0 (derecha).
Ejercicio 8.2. Considere un modelo de regresión, sin variables explicativas (d = 0), esto es
Y = β0 + ε. (86)
Asuma que dispone de un set de N observaciones de la variable explicada, {Y1 , Y2 , . . . , YN }. Obtenga

el estimador de mı́nimos cuadrados del parámetro β0 y RSS.
Solución: La matriz de regresión y su transpuesta son

 
1
1
 
X=
 .. 
 , X> = 1 1 . . . 1 (87)
. 1×N
1 N ×1
Ası́, X> X = N . Por lo tanto, (X> X)−1 = 1/N . De este modo, la matriz pseudo inversa resulta
X+ = (X> X)−1 X> = (1/N )X> . Finalmente, el estimador es
 
Y1
 Y2 
  N

~ = (1/N ) 1 1 . . . 1
1 X
β̂0 = X+ Y  . = Yi = Y . (88)
 .. 
1×N  N i=1

YN N ×1
Es decir, la predicción es simplemente el promedio muestral de Y . Consecuentemente,

N
RSS = ||~ε̂||2 =
X
(Yi − Y )2 . (89)
i=1
De donde es claro que RSS para un modelo sin regresores es la suma de los cuadrados de las
desviaciones con respecto a la media. A esta cantidad se le llama variación total de Y (si la dividimos
por N obtenemos la varianza muestral de Y ). También se le dice suma total de cuadrados o TSS
(del inglés, total sum of squares).
Ejercicio 8.3. Considere el modelo de regresión lineal simple Y = β0 + β1 X1 + ε y el set de

entrenamiento T . La variable Y es la velocidad relativa entre dos galaxias (a esta velocidad se le
dice velocidad de recesión y está medida en miles de millas por segundo), y la variable explicativa X1
es la distancia entre ambas galaxias (medida en millones de años luz). Obtenga los estimadores de
36
mı́nimos cuadrados y RSS. Verifique además que la suma de los residuos es cero, y que la correlación
entre el regresor y la serie de residuos es cero. Si la distancia entre dos galaxias aumenta en 1 millón
de años luz, y el resto de las variables permanecen fijas, ¿en cuánto cambiará la velocidad entre
ambas galaxias?
Finalmente, considere el set de test T 0 y obtenga RSS para este set de datos. A veces, a cantidad
se le dice PRSS, del inglés predicted residual sum of squares.
ID Y X1
ID Y X1
1 2.4 68
1 14.4 405
2 4.7 137
2 26.0 700
3 12.0 315
Table 9: Set de entrenamiento T (izquierda) y set de test T 0 (derecha).
Solución.- La matriz de regresión (ampliada) es

 
1 68
X = 1 137 .
 
1 315
La matriz transpuesta X > es

!
> 1 1 1
X = .
68 137 315
Por lo tanto,
! !
> 3 520 > −1 1 122618 −520
X X= ⇒ (X X) =
520 122618 97454 −520 3
La pseudo inversa es
! ! !
+ 1 122618 −520 1 1 1 1 87258 51378 −41182
X = =
97454 −520 3 68 137 315 97454 −316 −109 425
Finalmente,
 
! 2.4 ! !
~ β̂0 +~ 1 87258 51378 −41182  −0.44419
β̂ = =X Y =  4.7  =

β̂1 97454 −316 −109 425 0.0392934
12.0
~ = X
Por lo tanto, ĝT (X) ~ > β̂~ = −0.44419 + 0.0392934X1 . Esto nos dice que en la medida que
la distancia aumenta en 1 millón de años luz (ceteris paribus), la velocidad aumentará en 0.039
miles de millas por segundo (lo cual equivale a 60 km/s, aproximadamente). Este resultado es una
observación de la expansión del universo, y se le conoce como constante de Hubble.
37
ID Y X1 ~ = Ŷ
ĝT (X) ε̂ ε̂2 ε̂X1
1 2.4 68 2.23 0.17 0.03 11.71
2 4.7 137 4.94 −0.24 0.06 −32.74
3 12.0 315 11.93 0.07 0.00 21.03
Table 10: Cálculo de residuos, RSS y otras propiedades usando T .
Con la función de regresión muestral podemos calcular los residuos, RSS y otras cantidades.
De la tabla anterior,
N
X =3
ε̂i = 0,
i=1
N
X =3
RSS = ε̂2i = 0.09,
i=1
N
X =3
ε̂i Xi1 = 0.
i=1
La primera ecuación demuestra que la suma de lo residuos es cero, la segunda es RSS (la norma al
cuadrado del vector de residuos, i.e. el cuadrado de la distancia entre el vector de predicciones y el
vector de observaciones de la variable Y ), y la tercera ecuación demuestra que no hay correlación
entre la serie de residuos y las observaciones de la variable X1 .
Finalmente, podemos construir una tabla similar para evaluar PRSS:
ID Y X1 ~ = Ŷ
ĝT (X) ε̂ ε̂2
1 14.4 405 15.47 −1.07 1.14
2 26.0 700 27.06 −1.076 1.13
Table 11: Cálculo de PRSS usando T 0 .
De donde es claro que
N
X =2
P RSS = ε̂2i = 2.27
i=1
Ejercicio 8.4. Considere el modelo Y = β0 + β1 X1 + ε y el set de entrenamiento T . Demuestre

que
N
(Xi1 − X 1 )(Yi − Y )
P
i=1
β̂1 = N
, β̂0 = Y − β̂1 X 1 ,
(Xi1 − X 1 )2
P
i=1
38
en donde X 1 y Y representan las medias muestrales de las variables X1 e Y , respectivamente.
Nota: Utilice el hecho que la suma de las desviaciones con respecto a la media es cero, es decir,
N N
(Xi1 − X 1 ) = (Yi − Y ) = 0.
P P
i=1 i=1
ID Y X1
1 Y1 X11
2 Y2 X21
.. .. ..
. . .
N YN XN 1
~ 1 , Y1 ), (X
Table 12: Set de entrenamiento T = {(X ~ 2 , Y2 ), . . . , (X
~ N , YN )}.
Solución.- Es fácil notar que:

 
1 X11  N
P

!
1

X21  N Xi1 
1 1 ... 1
X> X = i=1
 
.
. ..  =
N N

X11 X21 . . . XN 1 . . 
 P P 2

2×N Xi1 Xi1
1 XN 1 N ×2
i=1 i=1
 N N 
P 2
−
P
1  i=1 Xi1 Xi1 
(X> X)−1 = N N
P

2  P N
i=1 

2 − − Xi1 N
P
N Xi1 Xi1
i=1 i=1 i=1
Podemos trabajar la expresión en el denominador de la fracción, haciendo:

N
X N
X 2 N
X N
X N
X
2 2
N Xi1 − Xi1 = N Xi1 − Xi1 Xi1
i=1 i=1 i=1 i=1 i=1
N N
!
X X
= N Xi1 Xi1 − Xi1 X 1
i=1 i=1
N
X
= N Xi1 (Xi1 − X 1 )
i=1
XN N
X
= N Xi1 (Xi1 − X 1 ) − N X 1 (Xi1 − X 1 )
i=1 i=1
| {z }
0
N
X
= N (Xi1 − X 1 )2 .
i=1
Ası́,
 
N
1
P 2 /N
Xi1 −X 1 
(X> X)−1 = .

N
i=1
(Xi1 − X 1 )2 −X 1 1
P
i=1
39
La matriz pseudo inversa es
X+ = (X> X)−1 X>
 
N !
1
P 2 /N
Xi1 −X 1  1 1 ... 1
=

N
i=1
X11 X21 . . . XN 1

(Xi1 − X 1 )2 −X 1 1
P
i=1
 
N N N
X 2 /N − X 1 X11 2 /N − X X 2 /N − X X
P P P
1 Xi1 1 21 . . . Xi1 1 N 1
= i=1 i1 .

N i=1 i=1
(Xi1 − X 1 )2 X11 − X 1 X21 − X 1 ... XN 1 − X 1
P
i=1
Podemos simplificar las expresiones en la primera fila, notando que:
N N
1 X 1 X 2 2
X 2 − X 1 X11 = 2
(Xi1 −2Xi1 X 1 + X 1 + 2Xi1 X 1 − X 1 ) − X 1 X11
N i=1 i1 N i=1 | {z }
0
N
1 X
2 2 2
= (Xi1 − 2Xi1 X 1 + X 1 ) + X 1 − X 1 X11
N i=1
N
1 X
= (Xi1 − X 1 )2 − (X11 − X 1 )X 1 . (90)
N i=1
Como la varianza muestral de X1 es
N
2 1 X
σ̂X 1
= (Xi1 − X 1 )2 ,
N i=1
podemos escribir la expresión (90) del siguiente modo:
N
1 X
X 2 − X 1 X11 = σ̂X
2
− (X11 − X 1 )X 1 .
N i=1 i1 1
Por lo tanto, la matriz pseudo inversa es

!
2 − (X − X )X 2 2
+1 σ̂X 11 1 1 σ̂X1 − (X21 − X 1 )X 1 . . . σ̂X1 − (XN 1 − X 1 )X 1
X = 2
1 .
N σ̂X 1
X11 − X 1 X21 − X 1 ... XN 1 − X 1
Con lo cual,
!
β̂0 ~
= X+ Y
β̂1
 
Y1
! 
1 2 − (X − X )X
σ̂X 11 1
2 2
1 σ̂X1 − (X21 − X 1 )X 1 . . . σ̂X1 − (XN 1 − X 1 )X 1  Y2 
= 2
1  . 
N σ̂X X11 − X 1 X21 − X 1 ... XN 1 − X 1  .. 
 
1
YN
 N N 
2 P
Yi − X 1
P
Yi (Xi1 − X 1 )
1  σ̂X1
= i=1 i=1 .
2 
N σ̂X N 
Yi (Xi1 − X 1 )
P
1
i=1
40
Como
N
X N
X N
X
Yi (Xi1 − X 1 ) = Yi (Xi1 − X 1 ) − Y (Xi1 − X 1 )
i=1 i=1 i=1
| {z }
0
N
X
= (Yi − Y )(Xi1 − X 1 ),
i=1
los estimadores se pueden escribir del siguiente modo:
 N N 
2 P
Yi − X 1
P
(Yi − Y )(Xi1 − X 1 )
σ̂X1
!
β̂0 1  i=1 i=1
= 2  N

β̂1 N σ̂X 
(Yi − Y )(Xi1 − X 1 )
P
1
i=1
N
 
"P (Yi −Y )(Xi1 −X 1 )
#
Y − X 1 i=1
 

 PN 
(X −X )2
i1 1
 
 
i=1
= 
 PN



 (Y i −Y )(X i1 −X 1 ) 

 i=1 
 N
P 
2
(Xi1 −X 1 )
i=1
 
Y − X 1 β̂1
P N 
 (Yi −Y )(Xi1 −X 1 ) 
=  .
 i=1 
 P N 
(Xi1 −X 1 )2
i=1
Que es el resultado pedido.
Ejercicio 9.1. Considere el siguiente modelo de regresión lineal Y = β0 + β1 X1 + β2 X2 + ε, en
donde Y es Pib de Mexico (medido en MM de pesos mexicanos), X1 el empleo (medido en miles
de personas empleadas) y X2 es el capital en la economı́a (medido en MM de pesos mexicanos).
Usted cuenta con datos, disponibles en la tabla (13), que muestran la evolución de dichas variables
a lo largo de 5 años (set de entrenamiento T ). Utilizando dicho set se obtienen los estimadores de
mı́nimos cuadrados    
β̂0 −35241.60144
~   
β̂ = β̂1  =  2.714900887  .

β̂2 0.657364533
(red) (red)
Considere ahora el modelo reducido Y = β0 + β1 X1 + ε. Construya la tabla ANOVA para
comparar ambos modelos. Luego, evalúe la ratio
~ ~
kŶ − Ŷ red k2
.
RSSred
41
Asuma que si dicha cantidad es “grande”, digamos mayor a 30%, entonces resulta conveniente
trabajar con el modelo general. De acuerdo a esta métrica, ¿cuál de los dos modelos es preferible?
ID Y X1 X2
1 276500 12955 405049
2 306700 13000 484677
3 339030 13938 520553
4 384057 14924 581531
5 414977 14154 609825
Table 13: Set de entrenamiento T : serie de tiempo.
Ejercicio 9.2. Considere el modelo de regresión lineal simple Y = β0 + β1 X1 + ε, en donde Y es

la demanda de un bien (unidades) y X1 es el precio del bien (miles de CLP). Considere el set de
entrenamiento T , descrito en la tabla (14).
a) Obtenga los estimadores de mı́nimos cuadrados, construya la tabla ANOVA y obtenga el

coeficiente de determinación (R2 ). Luego, prediga la demanda cuando el precio del bien es
igual a 5500 CLP.
b) Verifique las 5 propiedades de los estimadores de mı́nimos cuadrados.
c) Considere el modelo logarı́tmico, ln(Y ) = β0 + β1 ln(X1 ) + ε. Obtenga los estimadores de

mı́nimos cuadrados, construya la tabla ANOVA y obtenga el coeficiente de determinación
(R2 ).
d) En términos del coeficiente de determinación, ¿cuál de los dos modelos es preferible?
ID Y X1
1 5.0 2.0
2 4.0 3.0
3 2.0 6.0
4 1.0 5.0
Table 14: Set de entrenamiento T : demanda y precio de un bien cualquiera.
Ejercicio 9.3. El principio de paridad del poder compra (PPP) establece que el precio de una
cierta canasta de bienes, en cualquier lugar del mundo, “debe” tener el mismo precio. Como está
presente en casi todo el mundo, se puede utilizar como canasta representativa a la hamburguesa Big
Mac. Por ejemplo, si la hamburguesa vale 5 USD en EEUU y 2500 CLP en Chile, entonces la tasa
de cambio debiese tender (en el largo plazo) a 500 CLP/USD. El precio (en moneda local) de la
Big Mac en 4 paı́ses se presenta en la tabla (15), junto con la tasa de cambio de mercado (moneda
local/USD). Asuma, además, que el precio de la Big Mac en EEUU es de 5.67 USD.
42
Considere el modelo de regresión lineal
Y = β0 + β1 X1 + ε,
en donde Y es la tasa de cambio de mercado (de moneda local a USD) y la variable explicativa es
la tasa de cambio (moneda local/USD) calculada utilizando el PPP.
a) Si el PPP fuera correcto, ¿qué valores debiesen tener los parámetros β0 y β1 ?
b) Obtenga los estimadores de mı́nimos cuadrados de los parámetros del modelo.
c) Construya la tabla ANOVA y obtenga el coeficiente de determinación.
Paı́s Precio Big Mac Tasa de cambio de mercado

Brazil 19.90 4.14
Canada 6.77 1.31
Switzerland 6.50 0.97
Denmark 30.00 6.72
Table 15: Índice Big Mac (The Economist, 15/Enero/2020).
Solución.- a) β0 = 0 y β1 = 1. En ese caso, Y = X1 + ε, es decir, la tasa de mercado serı́a igual a

la tasa calculada usando el PPP (más una perturbación).
b) Conviene escribir primero una tabla con las tasas PPP y de mercado,
Paı́s Tasa de cambio PPP Tasa de cambio de mercado

Brazil 19.90/5.67 = 3.51 4.14
Canada 6.77/5.67 = 1.19 1.31
Switzerland 6.50/5.67 = 1.15 0.97
Denmark 30.00/5.67 = 5.29 6.72
Table 16: Índice Big Mac (The Economist, 15/Enero/2020). Tasas de mercado y PPP.
Procedemos ahora con el cálculo de los estimadores.

 
1 3.51 ! !
1 1.19 1 1 1 1 4 11.14
>
X =   , X , X> X = .
 
1 1.15 3.51 1.19 1.15 5.29 11.14 43.05
1 5.29
! !
> −1 1 43.05 −11.14 + > −1 > 1 3.95 29.75 30.28 −15.90
(X X) = , X = (X X) X =
48.086 −11.4 4 48.086 2.90 −6.37 −6.56 10.02
 
4.14 ! !
~ ~ = 1 3.95 29.75 30.28 −15.90 
1.31
 −0.460
β̂ = X+ Y = .
2.90 −6.37 −6.56 10.02 0.97

48.086 1.345
6.72
43
~ = Ŷ = −0.46 + 1.345X1 .
Por lo tanto, ĝT (X)
c) Notar que Y = 3.285. Conviene organizar los datos en la siguiente tabla:
Y X1 Ŷ ε̂ ε̂2 Y −Y (Y − Y )2
4.14 3.51 4.26 −0.1190 0.0142 0.855 0.731
4.31 1.19 1.15 0.1645 0.0271 −1.975 3.9006
0.97 1.15 1.08 −0.1115 0.0124 −2.315 5.3592
6.72 5.29 6.65 0.0660 0.0044 3.435 11.799
La suma de los elementos de la 5ta columna (de izquierda a derecha) es RSS. La suma de los
elementos de la 7ma columna (de izquierda a derecha) es TSS.
RSS = 0.058 , TSS = 21.7901.
Como ESS+RSS=TSS, sabemos que ESS=TSS-RSS=21.7321. De esta manera, la tabla de análisis

de varianza es
Modelo Suma de Cuadrados GL Suma Media de Cuadrados F

Principal v/s Reducido 21.7321 1 21.7321 749.331
Principal 0.058 2 0.029 –
Reducido 21.7901 3 7.2634 –
Por último,
RSS
R2 = 1 − = 0.9973.
TSS
Es decir, un 99.73% de la variación total de la tasa de mercado en la muestra se explica usando el
modelo de regresión lineal. Como sabemos, esto también significa que la correlación entre la serie
√
de predicciones Ŷ y la serie de observaciones de Y es igual a 0.9973 = 0.9987. Similarmente, la
correlación en la muestra entre X1 (la tasa de cambio PPP) y Y (tasa de cambio de mercado) es
0.9987.
Ejercicio 9.4. Usando las propiedades algebraicas de los estimadores de mı́nimos cuadrados, de-
muestre que
N
X
ESS = (Ŷi − Y )(Yi − Y ).
i=1
Solución.- Sabemos que ESS es (el cuadrado del “largo”) de la diferencia entre las predicciones
de un modelo de regresión lineal y las predicciones hecha a partir de un modelo sin regresores (la
media muestral de Y ). Es decir,
N N
~ ~ k2 = X(Ŷ − Y )2 = X(Ŷ − Y )(Ŷ − Y ).
ESS = kŶ − Y i i i
i=1 i=1
44
Como Yi = Ŷi + ε̂i , o bien, Ŷi = Yi − ε̂i ,
N
X
ESS = (Ŷi − Y )(Yi − ε̂i −Y )
| {z }
i=1 Yi
N
X
= (Ŷi − Y )(Yi − Y − ε̂)
i=1
XN N
X
= (Ŷi − Y )(Yi − Y ) − (Ŷi − Y )ε̂i
i=1 i=1
XN XN N
X
= (Ŷi − Y )(Yi − Y ) − Ŷi ε̂i − Y ε̂i .
i=1 i=1 i=1
Por las propiedades algebraicas de los estimadores de mı́nimos cuadrados, en particular, como los
residuos suman cero (50) y no hay correlación entre Ŷ y la serie de residuos (51), los últimos dos
términos valen cero. Con esto se demuestra lo pedido.
Ejercicio 9.5. Considere el modelo de una sola variable explicativa (d = 1) Y = β0 + β1 X1 + ε.

Demuestre que el coeficiente de correlación en este caso es el cuadrado de la correlación entre Y y
X1 , esto es,
N
(Xi1 − X 1 )(Yi − Y )
" P #2
2 i=1
R = s s .
N N
(Xi1 − X 1 )2 (Yi − Y )2
P P
i=1 i=1
Solución.- Sabemos que el coeficiente de determinación es el cuadrado de la correlación entre la

predicción y la variable explicada (63),
N
(Ŷi − Y )(Yi − Y )
" P #2
2 i=1
R = s s .
N N
(Ŷi − Y )2 (Yi − Y )2
P P
i=1 i=1
Como Ŷi = β̂0 + β̂1 Xi1 y Y = β̂0 + β̂1 X 1 (propiedad 53), entonces (Ŷi − Y ) = β̂1 (Xi1 − X 1 ). Con
esto, la expresión anterior queda
N N
β̂1 (Xi1 − X 1 )(Yi − Y ) (Xi1 − X 1 )(Yi − Y )
" P #2 " P #2
2 i=1 i=1
R = s s = s s .
N N N N
β̂12 (Xi1 − X 1 )2 (Yi − Y )2 (Xi1 − X 1 )2 (Yi − Y )2
P P P P
i=1 i=1 i=1 i=1
Ejercicio 9.6. Demuestre que la relación entre el coeficiente de determinación y el coeficiente de

determinación ajustado está dada por
N −1
R̄2 = 1 − (1 − R2 ).
N −p
45
References
Galton, F. (1886, January). Regression Towards Mediocrity in Hereditary Stature.
Keynes, J. M. (1936). The General Theory of Employment, Interest and Money. Macmillan. 14th
edition, 1973.
Michie, D., V. Profile, and O. M. A. Metrics (1988, Oct). The fifth generation’s unbridged gap: A
half-century survey on the universal turing machine.
Mincer, J. (1974). Schooling, Experience, and Earnings. National Bureau of Economic Research,
Inc.
Plackett, R. L. (1972, 08). Studies in the History of Probability and Statistics. XXIX: The discovery
of the method of least squares. Biometrika 59 (2), 239–251.
Street, W. N., W. H. Wolberg, and O. L. Mangasarian (1993). Nuclear feature extraction for
breast tumor diagnosis. In R. S. Acharya and D. B. Goldgof (Eds.), Biomedical Image Processing
and Biomedical Visualization, Volume 1905, pp. 861 – 870. International Society for Optics and
Photonics: SPIE.
46

Apuntes

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Apuntes

Cargado por

Copyright:

Formatos disponibles

Apuntes de Clases

April 17, 2023

Table 2: Variables predictoras para la detección de cáncer de mama

Ejemplo 1.13. (Ciencias Polı́ticas) La variable explicada Y corresponde al porcentaje de votos

Definition 1.1 (Modelo General).

~ le diremos función de predicción y describe cómo el vector de variables

Organización y representación de datos. Asumimos que existe un proceso generador de una

~ (7). En violeta los elementos de la matriz

2 Modelo de Regresión Lineal

Supuesto 1. La función de regresión depende linealmente de un conjunto de p = d + 1

Definition 2.1 (Modelo de regresión lineal).

2. no sabemos si la variable explicada debe ser transformada o no, y

3. desconocemos el valor de los parámetros.

Notar que X es una matriz de regresión aumentada,

Modelo de regresión lineal aplicado al i-ésimo dato Yi = Xi> · β~ + εi

Función de regresión lineal ~ = β0 + β1 X1 + β2 X2 + . . . + βd Xd

Definition 3.1 (Función de regresión muestral).

De esta manera, la variable Y se escribe ahora

Y ~ > · β̂~ + ε̂,

~ > · β̂~ + ε̂i ,

La primera ecuación es análoga a cualquiera de las ecuaciones en (26). La segunda, análoga a la

en donde, de modo similar a (13), utilizamos el vector de residuos,

Por otra parte, si consideramos un vector cualquiera

3.3 Método de mı́nimos cuadrados

A su vez, la matriz X+ es la matriz pseudo–inversa de la matriz de regresión. Si las columnas de

X+ = (X> X)−1 X> . (45)

Insertando la ecuación (44) en (43) obtenemos

de donde es claro que la solución a la ecuación (43) es

Como X> P = (PX)> = X> , podemos escribir la ecuación anterior de la forma

A este conjunto de ecuaciones se le llama ecuaciones normales. Su resolución conduce a (47).

Primero, establezcamos la notación

Notar además que

es decir, no hay correlaciones entre la serie de predicciones y la serie de residuos.

La primera ecuación nos dice que

Y1 + Y2 + . . . + YN = Ŷ1 + Ŷ2 + . . . + ŶN ⇒ Y = Ŷ . (52)

Y = β̂0 + β̂1 X 1 + β̂2 X 2 + . . . + β̂d X d . (53)

4 Análisis de varianza y bondad de ajuste

Como hemos visto en el capı́tulo (3), la matriz P proyecta ortogonalmente en C(X) y X+ es la

~ = X(red) β̂~ (red) + ~ε̂(red) = Ŷ

en donde el vector de estimadores de los pred = k + 1 satisface

~ = X(red) β̂~ (red) ⇒ β̂~ (red) = X+(red) Y

GLRSS + GL∗ = GLRSSred . (57)

4.2 Coeficiente de determinación

Ası́, el término * en (56) resulta

RSS + ESS = TSS. (61)

Con esto, el coeficiente de determinación se puede expresar del siguiente modo:

~ ~ + E(X+ ~ε) = β~ + E(X+ ~ε).

Supuesto 2. Los regresores son estrictamente exógenos.

5.2 Varianza de los estimadores de mı́nimos cuadrados

Comenzamos calculando la varianza de los estimadores,

Supuesto 3. Los errores son homocedásticos.

E(ε21 |X) = E(ε22 |X) = . . . = E(ε2N |X) = σ 2 . (71)

Nota EME322 = β0 + β1 Estudio + ε,

Nota EME3221 = β0 + β1 Estudio1 + ε1

Además, asuma que la matriz de regresión es

Figure 4: 25 muestras de tamaño N = 4 (N × 25 = 100 puntos). En todas las muestras, la matriz de

Supuesto 4. Ausencia de auto-correlación.

E(εi εj |X) = 0, ∀ i 6= j. (73)

2.0 + 1.3 × Estudio

Figure 6: 25 muestras de tamaño N = 4 (100 puntos). Comportamiento heterocedástico. En este caso, la

Por lo tanto, la varianza de los estimadores (69) resulta

Ejemplo 5.3. Considere la regresión de la nota (Y ) en el tiempo de estudio (X1 ), medido en