Documentos de Académico
Documentos de Profesional
Documentos de Cultura
M. Luján Puchot*
1 de febrero de 2024
{(yi , xi )}ni=1 es una muestra aleatoria de tamaño n para cada una de las variables
mencionadas.
y = β0 + β1 x + u (1)
1
y es el cambio en x multiplicado por la la magnitud del efecto, β1 . Éste último es un
parámetro y da cuenta de la manera en la que varı́a y dado un cambio de una unidad
en x. La relación lineal puede ser negativa o positiva dependiendo del signo de β1 . La
linealidad de la ecuación (1) implica que una unidad tiene siempre el mismo efecto sobre
y, sin importar el valor inicial de x. Esto se da porque lo que se busca en el modelo es
una misma relación lineal para todos los datos y su pendiente es β1 . Esto es representado
gráficamente en la Figura 1.
Algo a considerar en el modelo simple, pero que se hará más visible cuando agreguemos
más variables explicativas al modelo, es la interpretación que tienen los parámetros que
acompañan a las variables explicativas. Esto es, β1 se interpreta como el efecto que tiene x
sobre y, manteniendo todo lo demás constante (efecto ceteris paribus). Volveremos sobre
esto más adelante.
y = β0 + β1 x
∆y
∆x
= β1
∆y
∆x
β0
Por otro lado, el intercepto representa la ordenada al origen del modelo, es decir, el valor
cuando cuando xi = 0. Veamos un ejemplo:
Supongamos ahora que se quiere plantear un modelo para ver la incidencia de los años de
educación sobre el salario. Esto es,
y = salario
x = educación (años)
y = β0 + β1 x + u
2
Con esto estamos diciendo que
Se cree que existe una relación lineal entre la cantidad de años de educación y
los salarios. Esta es la hipótesis con la que se parte y que influye directamente en
la confección del modelo. Si partiéramos de que la relación que existe puede ser
cuadrática o cúbica, entonces el modelo serı́a otro.
Se cree que el factor principal que incide sobre los salarios son los años de educación.
Ahora bien, el modelo es necesario para estipular la relación que vamos a querer analizar.
A su vez, esta relación va a estar dada primordialmente por aquello que materializa
en una cuantı́a este vı́nculo de variables, esto es, los parámetros. Dado que rara vez se
pueden obtener todos los datos de una población es que se utilizan los estimadores de los
parámetros para el modelo. De esta forma, se hace una distinción clave entre el modelo
verdadero o teórico que no se puede conocer y un modelo estimado. El objetivo primero va
a estar puesto en estimar los parámetros para conocer aquellas relaciones entre variables
explicativas y variable explicada. Una vez que esto haya sido posible, mediante métodos y
procedimientos adecuados, es posible predecir un valor para la variable explicada dado un
valor de una o más variables explicativas. En el caso del salario y los años de educación,
una vez que los estimadores se obtuvieron, es posible predecir un salario promedio para
una cantidad de años de educación dada. Lı́neas más abajo trataremos esto.
3
2. Los estimadores son variables aleatorias, por lo que se cumplen todas sus propiedades
estadı́sticas.
Dado un modelo poblacional como el que fue definido en la Ecuación (1), el modelo
estimado serı́a
ŷi = βˆ0 + βˆ1 xi + ûi (3)
Donde se indica que βˆ0 y βˆ1 son estimadores de los parámetros poblacionales. A su vez, û es
el estimador del error, el residuo. La variable explicativa xi representa un dato observable
i. Ésta última, junto con los estimadores de los parámetros, dan como resultado un valor
de ŷi que fue obtenido trabajando con la muestra.
Es deseable encontrar un estimador que sea lo más parecido al parámetro poblacional.
Para esto, hay que elegir un método de estimación que pueda asegurar alguna propiedad
virtuosa de los estimadores. Asimismo, cuando tratamos con muestras de la población,
es necesario asegurar aleatoriedad en su composición. En otras palabras, se busca que no
haya observaciones que sean más probable de aparecer. Esto puede sesgar el resultado
en el sentido de arrojar un resultado significativamente diferente al resultado poblacional.
Dado que la comparación con los resultados poblacionales no se puede llevar a cabo por la
imposibilidad de trabajar con toda la población, es que se deben hacer varias evaluaciones
en las estimaciones que se obtienen.
Sobre el error
4
todos los componentes del modelo estimado y se desean predecir valores de ŷi , el error va a
incidir en que el valor predicho sea diferente al valor del modelo teórico o verdadero. Dado
que no conocemos a la población, pero se pudo obtener una muestra lo suficientemente
representativa, el residuo se define de la siguiente manera:
Observaciones
de la muestra
y
ŷ = βˆ0 + β̂1 x
yi
uˆ1 ûi
yˆi
β0 yi
yˆi
Figura 2: Residuos
Véase que los valores predichos de la variable explicada, ŷi , se encuentran en la recta de
mejor ajuste puesto que salen directamente de ŷ = βˆ0 + β̂1 x.
Suponga que para el caso de salarios y años de educación, de las n observaciones que se
tienen, hay dos individuos que tienen la misma cantidad de años de educación, 20. El
salario predicho para estas personas deberı́a ser el mismo, dado que los estimadores de β̂0
y β̂1 se mantienen para todos las observaciones i.
Sin embargo, se contrasta esto con las observaciones de la muestra y esto no es ası́. En
los datos se observa que dos personas que tienen 20 años de educación no ganan lo que el
modelo predice ni tampoco ganan lo mismo entre sı́. El motivo por el que esto sucede se
5
debe al término residual en el modelo estimado. Existen factores que tienen que ver con las
habilidades de cada persona, el entorno socioeconómico, el sexo, e incluso las habilidades
de las personas para hacer contactos en ciertos ámbitos. Todo esto se contempla dentro
del término residual. Lo que arroja la recta estimada es un promedio de todo lo
que es explicado por el modelo.3
Ası́, se hace notable la bondad de tener la menor cantidad posible del término de error
explicando las predicciones, con el objetivo de dotar al modelo de precisión. Consecuen-
temente, los resultados acerca de las relaciones entre variables serı́a más parecida a la
relación que existe en el modelo verdadero en dicho caso. Esto es lo que va a hacer el
método de mı́nimos cuadrados ordinarios.
n
X
mı́n û2i (5)
β̂0 ,β̂1
i=1
n
X
mı́n (yi − ŷi )2
β̂0 ,β̂1
i=1
n
X
mı́n (yi − β̂0 − β̂1 xi )2
β̂0 ,β̂1
i=1
Para pensar: ¿Cuál es la función de utilizar errores cuadráticos?
n
∂ û X
= −2 (yi − β̂0 − β̂1 xi ) = 0 (6)
∂ β̂0 i=1
n
∂ û X
= −2 xi (yi − β̂0 − β̂1 xi ) = 0 (7)
∂ β̂1 i=1
Pn Pn
i=1 (xi − x̄)(yi − ȳ) (xi − x̄)yi
β̂1 = Pn 2
= Pi=1
n 2
(8)
i=1 (xi − x̄) i=1 (xi − x̄)
Pn
(x − x̄)(yi − ȳ)
Pn i
β̂0 = ȳ − x̄ i=1 2
(9)
i=1 (xi − x̄)
¡Demostrar con las propiedades vistas! Las Ecuaciones (8) y (9) son los esti-
madores obtenidos con el método de MCO para los parámetros del modelo de regresión
3
Véase que en la Figura 2 la recta estimada no tiene en sus términos a ûi
6
simple presentado anteriormente. Tal como se mencionó anteriormente, β̂0 y β̂1 son varia-
bles aleatorias y dependen de la muestra.
Además, de la Ecuación (8) debe notarse lo siguiente:
Si queremos ver la relación entre x y y, y esto es dado por la covarianza, ¿por qué
no usar únicamente el númerador? Esto es, ¿qué rol cumple la varianza muestral
dividiendo? La razón de dividir por la varianza de x no es más que para normalizar
la covarianza. Es decir, para tener una medida relativa de la relación entre x e y
que no dependa de la escala de x.
7
5 Bibliografı́a