Está en la página 1de 14

TEMA 4 REGRESION CON 1 VARIABLE...

Rosaliagonzlez1

Econometría

3º Grado en Administración y Dirección de Empresas

Facultad de Economía y Empresa


Universidad de Salamanca

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1072782
VARIABLE. MLS 1
TEMA 4. REGRESION CON 1

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
MOTIVACIÓN

• Entendemos nuestro objetivo: Estudiar relaciones entre variables económicas


combinando modelos teóricos y datos empíricos.

• El caso más sencillo: Cuando tenemos una única variable explicativa.

• Nos vamos a centrar, para comprender cómo funcionan los modelos, en un modelo
muy sencillo: Cuando la función de regresión y=f(x) es lineal: Modelo Lineal Simple
(MLS)

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
• Después ampliaremos a relaciones conocidas no lineales, y a estimación no
paramétrica que no requiere conocimiento de la forma funcional.

Ejemplo: Los datos sobre publicidad en TV y ventas muestra una relación aproximadamente
lineal.

FILOSOFÍA DE LA ESTADÍSTICA: Reservados todos los derechos.

• Nuestro objetivo es estudiar relaciones entre variables que se den en la realidad, sean
lineales o no.

• Para poder estudiar las propiedades estadísticas de los estimadores necesitamos


especificar las reglas del juego, un modelo lo más sencillo posible.

• Aprendemos cómo funcionan las cosas en ese modelo y después podemos:

▪ Estudiar modelos más complejos.

▪ Asumir que, en la práctica, los modelos son sólo aproximaciones de la realidad,


nunca exactos.

George Box: Todos los modelos son falsos, pero algunos son útiles

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1072782
Nuestro primer modelo:

MODELO LINEAL SIMPLE (MLS)

X Variable explicativa, regresor.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Y Variable explicada o variable de respuesta.

βi Parámetros o coeficientes del modelo: A β0 se le llama constante del modelo y


a β1 pendiente.

εε Término de error, componente no observado

• De la definición inicial se deduce

• Esta es la condición que tiene que cumplirse en el modelo causal para que funcionen

Reservados todos los derechos.


los métodos estándar de estimación.

HIPÓTESIS MLS

Observaciones generadas por: yi = β0 + β1xi + εi

Muestra de trabajo: n pares, (x1,y1),(x2,y2),…,(xn,yn)

• Esperanza condicionada nula:

• Otras hipótesis:

• Sobre las X: De momento supondremos que trabajamos con X prefijadas, como


ocurriría en un contexto experimental. Eventualmente permitiremos que
sean aleatorias procediendo de una distribución.

• Sobre las observaciones: muestreo aleatorio simple que requiere que las ε sean
independientes entre sí. En la práctica este supuesto es más fuerte de lo necesario.
Basta con covarianzas nulas entre los ε.

• Sobre los datos: La condición de identificación requiere tener al menos dos


observaciones con x distintas: 2 puntos definen una recta. Matemáticamente:

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1072782
HIPÓTESIS ADICIONALES OPTATIVAS: HOMOCEDASTICIDAD

• Homocedasticidad o varianza constante

• En el ejemplo de los datos de publicidad, por ejemplo, este supuesto claramente se


incumple: a mayor gasto en publicidad hay mayor dispersión en torno al valor
esperado: heterocedasticidad

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
• Este supuesto no es central: Tan sólo permite calcular de una manera más sencilla
el error estándar de los estimadores.

Reservados todos los derechos.


SIMULACIÓN DEL MLS

Con lo que hemos dicho podemos proceder a simular observaciones correspondientes a un


MLS. Para ello escogemos los valores de las betas y de las x, así como la distribución que
genera las ε.

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1072782
ERROR CUADRÁTICO MEDIO

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Por las propiedades de la esperanza (y de la esp. condicionada) los verdaderos valores de los
parámetros minimizarían el verdadero ECM, que viene dado por:

donde b0 y b1 son cualquier valor factible de los parámetros del modelo.

Dada una muestra con n pares de observaciones (x1,y1),(x2,y2),…,(xn,yn) ¿Cómo estimar los
parámetros?

• Muestra: (x1,y1),(x2,y2),…,(xn,yn)

• Para cada observación y valores hipotéticos de b0b0 y b1b1 definimos


el residuo como:

Reservados todos los derechos.


• Podemos minimizar el ECM (o MSE) en la muestra:

ESTIMADOR MÍNIMO CUADRÁTICO

Minimizar el ECM (o MSE) en la muestra:

equivale a minimizar la Suma de Cuadrados de los Residuos (SR, RSS):

con , denominado residuo

A este estimador se le llama ESTIMADOR DE MÍNIMOS CUADRADOS


ORDINARIOS o MCO(OLS, Ordinary Least Squares)

• Esta es la recta que superpone ggplot cuando


especificamos geom_smooth(method="lm").

• Es el estimador que vosotros habéis estudiado en Estadística.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1072782
MINIMIZANDO LA FUNCIÓN SR: PENDIENTE

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Reservados todos los derechos.

El valor que minimiza SR (RSS) es el estimador MCO de la pendiente.

[Realizado con la función least.squares del paquete animation]

• Se podría obtener numéricamente, probando valores,

• Pero, en este caso, existe una fórmula que permite obtener los parámetros que
minimizan SR

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1072782
MINIMIZANDO LA FUNCIÓN SR: PENDIENTE Y CONSTANTE

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
SR es función de dos variables. Los estimadores MCO son los valores para los que la función
alcanza un mínimo

Reservados todos los derechos.


Fuente: ISL, fig. 3.2

MINIMIZANDO LA SR: ESTIMADORES MCO

• El método numérico funciona para todo tipo de estimadores, pero para MCO en los
modelos lineales es posible derivar fórmulas analíticas de los estimadores.

• Condiciones de primer orden: Derivando respecto a los argumentos e igualando a


cero.

• Se obtienen las llamadas ecuaciones normales

• Soluciones: Estimadores Mínimo Cuadráticos (MCO, ó OLS - Ordinary Least Squares)

Vamos a comprobarlo

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1072782
DERIVACIÓN ANALÍTICA DE LOS ESTIMADORES MCO

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
SOLUCIÓN DE LAS ECUACIONES NORMALES

Las ecuaciones normales nos proporcionan un sistema de 2 ecuaciones lineales con 2


incógnitas (los estimadores MCO, β0(MCO) y β1(MCO)) que podemos solucionar:

Reservados todos los derechos.


Sustituyendo la primera ecuación en la segunda se obtiene:

Recordando el desarrollo de los momentos de orden 2 respecto a la media, tenemos

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1072782
AJUSTE Y RESIDUOS: EN LA MUESTRA

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
• Valores ajustados (fitted values): El valor ajustado MCO viene dado por nuestra
estimación de la función f(x)f(x) para x=xi:

• Residuos MCO (LS residuals): Definimos los residuos como la diferencia entre yi y f^(xi)
en la muestra. Son el equivalente muestral del término de error:

Reservados todos los derechos.


GRÁFICOS DE AJUSTE CON OTROS PAQUETES

mosaic: La función plotModel representa los datos y el ajuste. Por defecto, gráficos lattice. Se
cambia con system="ggplot2",

mosaicModel: La función mod_plot representa el valor ajustado.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1072782
PREDICCIÓN MCO: FUERA DE LA MUESTRA

• Predicción MCO (LS forecast): Si queremos predecir el valor de y para una observación
fuera de la muestra dada por (x0,y0), correspondería a la estimación de f(x0), es decir:

• Error de predicción MCO: El error que cometemos al utilizar y^0 para predecir y0

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Validación del modelo

• Un problema general en la estimación de modelos es que al elegir entre todos los


posibles valores de los parámetros podemos encontrar unos que lleven incluso a un
mejor ajuste que los verdaderos valores: sobreajuste

• Para ello se emplea la estrategia de validación: dividir los datos en muestra de


trabajo y muestra de test. El ECM en la de trabajo puede infraestimar el error
intrínseco -sobreajuste-, pero el ECM en la muestra de test si que nos da información

Reservados todos los derechos.


válida sobre el modelo. En la econometría moderna se emplea para seleccionar entre
modelos.

• La estimación de los modelos se hace con la función lm (linear model).

• En el paquete mosaicModel, por ejemplo, la función mod_error calcula el ECM (MSE)


para un modelo y unos datos:

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1072782
VALIDACIÓN EN EL MODELO DE PUBLICIDAD

Modelo estimado con todos los datos RMSE en muestras de trabajo y test

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
El problema es que no sabemos
si la diferencia se puede deber a la
casualidad (cómo se ha dividido la
muestra en dos)

Reservados todos los derechos.


BOOTSTRAP EN EL MODELO LINEAL

Los estimadores que obtenemos dependen de la muestra concreta.

Precisamente el bootstrap sirve para comprobar la distribución de los estimadores en el


muestreo

do con los modelos lineales evalúa los parámetros estimados y una estimación del error
estándar del término de error (que estudiaremos), junto a otros estadísticos.

BOOTSTRAP DE PUBLICIDAD

• El coeficiente de TV cambia bastante de una muestra a otra, pero SIEMPRE ES


POSITIVO: A mayor publicidad en TV esperamos más ventas.

• El coeficiente constante (intercept) vendría a ser el valor esperado de las ventas para
publicidad 0.

• La variabilidad de sigma (cercano a rmse) muestra que en unas (re)muestras


ajustamos mejor que en otras.

• La distribución es aproximadamente normal en todos los casos.

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1072782
• La semana que viene estudiaremos la distribución en el muestreo con el método
analítico.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
AJUSTE BOOTSTRAP

Automáticamente hace un número de estimaciones bootstrap y las representa.

Reservados todos los derechos.


Nos da una idea de la variabilidad del ajuste.

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-1072782

También podría gustarte