Está en la página 1de 41

ECONOMETRÍA PARA

LA GESTIÓN

Docente: Valentina Ciriotto


Correo: valentina.ciriotto@uss.cl
Unidad 1
1. Conceptos básicos de Econometría.
2. Econometría, su campo y objeto de estudio.
3. Origen del concepto de regresión y su interpretación actual.
4. Causalidad, correlación y ceteris paribus.
5. Naturaleza de las fuentes de información para el análisis
econométrico.
6. Datos observacionales vs datos experimentales.
7. Metodología de la Econometría.
8. Regresión simple y Mínimos Cuadrados Ordinarios.
9. Supuestos detrás de la estimación por MCO.
10. Distribución muestral de los estimadores MCO.
Ejercicio
• Para justificar los programas de capacitación laboral, se ha dicho que estos
mejoran la productividad de los trabajadores. Suponga que se le pide que evalúe
si una mayor capacitación para el trabajo hace que los trabajadores sean más
productivos. Pero, en lugar de que se le proporcione datos sobre trabajadores
individuales, se le facilitan datos de fábricas en Santiago. De cada empresa se les
proporcionan horas de capacitación laboral por trabajador (capacitación) y la
cantidad de artículos no defectuosos producidos por hora por cada trabajador
(producción).
• i) Establezca el experimento ceteris paribus subyacente a esta pregunta.
• ii) ¿Parece razonable que la decisión de una empresa de capacitar a sus
trabajadores sea independiente de las características de los mismos?¿Cuales son
algunas de esas características medibles y no medibles de los trabajadores?
• iii) Nombre un factor que influya en la productividad de los trabajadores y que no
sea una característica.
• iv) Si encontrara una correlación positiva entre producción y capacitación,
¿habría establecido de manera convincente que la capacitación para el trabajo
hace que los trabajadores sean más productivos? Fundamente su respuesta.
El modelo de regresión simple
• El modelo de regresión simple puede utilizarse
para estudiar la relación entre dos variables.
Aprender a interpretar el modelo de regresión
simple es una buena práctica para estudiar la
regresión múltiple, lo cual se estudiará en las
clases siguientes.
• Es simple porque el modelo tiene una sola
variable independiente.
Ejemplo hipotético
Como se ha señalado, el análisis de regresión se relaciona en gran
medida con la estimación o predicción de la media (de la población) o
valor promedio de la variable dependiente, con base en los valores
conocidos o fijos de las variables explicativas.

X = Ingreso familiar
semanal

60

෍ = 7.272
𝑖=1

La tabla muestra el consumo semanal para 10 niveles de ingresos en una población de 60 familias. En total hay 10 valores medios para las 10 subpoblaciones de Y,
llamados valores esperados condicionales.
Es importante distinguir entre los valores esperados condicionales y el valor esperado incondicional, que para estos datos corresponde a $121,20 ($7.272/60)
Ejemplo hipotético

Los puntos oscuros en el gráfico, muestran los valores medios


condicionales de Y, graficados en función de los diferentes valores de
X. Al unir esos valores obtenemos la línea de regresión
poblacional (LRP), o, más general, la curva de regresión
poblacional (CRP).
Con palabras más sencillas, es la regresión de Y sobre X. El
adjetivo “poblacional” se debe a que en este ejemplo trabajamos con la
población total de 60 familias.
Ejemplo hipotético
Así, desde el punto de vista geométrico, una curva de regresión poblacional es tan sólo el lugar
geométrico de las medias condicionales de la variable dependiente para los valores fijos de la(s)
variable(s) explicativa(s).
En palabras más simples, es la curva que conecta las medias de las subpoblaciones de Y que
corresponden a los valores dados de la regresora X.

Curva de Regresión Poblacional

E (Y | Xi ) = f (Xi
)
¿Forma funcional de la FRP?

E (Y | Xi ) = β1 + β2Xi
Pendiente

Intercepto Intercepto

Pendiente
Concepto de linealidad en los parámetros
La ecuación 𝐸 𝑦 𝑥 = 𝛽1 + 𝛽2 𝑥 muestra que la función de regresión
poblacional (FRP), E(y|x) es una función lineal de x. La linealidad
significa que por cada aumento de una unidad en x el valor esperado
de y se modifica en la cantidad 𝛽1 .
La interpretación de linealidad se presenta cuando la esperanza
condicional de Y, E(Y | Xi), es una función lineal de los parámetros,
los β; puede ser o no lineal en la variable X.
PREGUNTA: ¿es lineal esta función?

E (Y | X i )  1   2 Xi
En esta interpretación,
E (Y | X i )  1   2 X 2
i
una función de
regresión como E(Y |
Xi ) = β1 + β2X^2i no
es una función lineal
porque la variable X
aparece elevada a una
potencia o índice de 2
pero es lineal en los Este modelo no es lineal en
parámetros. los parámetros
Funciones lineales en los
parámetros
El modelo de regresión simple
Se utiliza para estudiar la relación entre dos variables. Es decir y y x
son dos variables que representan alguna población y se desea
“explicar y en términos de x” o “estudiar cómo varia y cuando varía x”.
ECUACIÓN DE UNA REGRESIÓN SIMPLE
𝑦 = 𝛽0 + 𝛽1 𝑥 + 𝑢

Término de error o
Parámetro del Parámetro de la perturbación
intercepto pendiente estocástica
E(y|x) es una funcion lineal de x: para cada x,
la predicción de y es E(y|x)
y
f(y)

. E(y|x) =  +  x
0 1
.

x1 x2
Análisis de Regresión con Dos Variables:
Algunas Ideas Básicas
ESPECIFICACIÓN ESTOCÁSTICA DE LA FRP
Se ha visto que es claro que, a medida que aumenta el
ingreso familiar, el consumo familiar, en promedio, también
aumenta.

Entonces, ¿qué se puede decir sobre la relación entre el


consumo de una familia y un nivel determinado de ingresos?

ui  Yi - E (Y | X i )
Yi  E (Y | X i )  ui
donde la desviación ui es una variable aleatoria no
observable que adopta valores positivos o negativos.
Técnicamente, ui se conoce como perturbación
estocástica o término de error estocástico.
El término de error o
perturbación estocástica
Como se ha señalado, el término de perturbación ui es un sustituto de todas las
variables que se omiten en el modelo, pero que, en conjunto, afectan a Y.
La pregunta obvia es: ¿por qué no se introducen explícitamente estas variables en
el modelo?
Razones:
1) Vaguedad de la teoría
2) Falta de disponibilidad de datos
3) Variables centrales y variables periféricas
4) Aleatoriedad intrínseca en el comportamiento humano
5) Variables representantes (proxy) inadecuadas
6) Principio de parsimonia
7) Forma funcional incorrecta
Línea de regresión, observaciones y errores

y E(y|x) = 0 + 1x
y4 .{
u4

y3 .} u3
y2 u2 {.

y1 .} u1

x1 x2 x3 x4 x
Estimación de Mínimo Cuadrado
Ordinario (MCO)
• En la práctica, casi nunca se tienen los datos de la población, sin
embargo si hay acceso a una muestra de valores de Y que
corresponden a algunos valores fijos de X.
• Por lo tanto, la labor ahora es estimar la FRP con base a
información muestral.
Ahora, igual que la FRP en la cual se basa la línea de regresión
poblacional, se desarrolla el concepto de función de regresión
muestral (FRM) para representar la línea de regresión muestral.
El símbolo es porque se trata de estimaciones
𝛽෠1 es el estimador y es el valor predicho cuando
x=0 (no siempre tiene sentido…)
𝑦ො = 𝛽መ0 + 𝛽መ1 𝑥 + 𝑢ො 𝑖 ∆𝑦ො
𝛽෠2 = , es el estimador de 𝛽2 e indica la
∆𝑥
cantidad en la que cambia 𝑦ො cuando x se
incrementa en una unidad.
𝑢ො 𝑖 es el residual (muestral) y es la estimación de
𝑢𝑖
Análisis de Regresión con Dos Variables:
Algunas Ideas Básicas
FUNCIÓN DE REGRESIÓN MUESTRAL

Para resumir, concluimos que el objetivo principal del análisis de regresión es


estimar la FRP en base a la FRM.

La pregunta crítica es
ahora:
como la FRM es
apenas una
aproximación de la
FRP, ¿se puede diseñar
una regla o método que
“acerque” esta
aproximación lo más
posible?
Análisis de Regresión con Dos Variables:
Algunas Ideas Básicas
Usted está a cargo de muchos restaurantes ubicados en recintos universitarios a lo largo del
país. Ha obtenido una muestra de 10 de ellos y está interesado en predecir la venta
trimestral en miles de US$ en función del tamaño del campus medido por su población de
estudiantes.

Restaurant Pob. Estudiantes (miles) Ventas Trim (miles US$)


1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202

La pregunta crítica es ahora:


como la FRM es apenas una aproximación de la FRP, ¿se puede diseñar una regla o método
que “acerque” esta aproximación lo más posible?
Análisis de Regresión con Dos Variables:
Algunas Ideas Básicas
Método Manual Ventas  60  5 * Población

Significado Beta = 5

Por cada mil estudiantes en el


campus, las ventas
trimestrales aumentan en
US$5.000 y viceversa.

Significado Alfa = 60

No tiene ningún significado


práctico, ya que no hay un
campus con 0 estudiantes.
Estimadores de mínimos
cuadrados
• En el 1809 Gauss propuso el método de mínimos cuadrados para
obtener los valores de 𝛽෠1 y 𝛽෠2 que mejor se ajustan a los datos:

𝑦ො𝑖 = 𝛽መ1 + 𝛽መ2 𝑥𝑖

• El método consiste en minimizar la suma de los cuadrados de las


distancias verticales entre los datos y las estimaciones, es decir
minimizar la suma de los residuos al cuadrado.
σ𝑛𝑖=1 𝑒𝑖2 = σ𝑛𝑖=1 𝑦𝑖 − 𝑦ො𝑖 2 = σ𝑛𝑖=1(𝑦𝑖 − (𝛽෠1 + 𝛽෠2 𝑥𝑖 ))2
Estimadores de mínimos
cuadrados

1 2
Estimadores de mínimos
cuadrados
• El resultado que se obtiene es:
𝑐𝑜𝑣(𝑥,𝑦) σ𝑛 ҧ
𝑖=1(𝑥𝑖 −𝑥)(𝑦 ത
𝑖 −𝑦)
𝛽෠2 = = σ𝑛
𝑠𝑥2 ҧ 2
𝑖=1(𝑥𝑖 −𝑥)

𝛽෠1 = 𝑦ത − 𝛽෠2 𝑥𝑖

𝛽መ2
𝛽መ1
Ejercicio

Los datos de la producción de trigo en toneladas (X) y el precio del kilo de harina en
pesetas (Y ) en la década de los 80 en España fueron:

Ajusta la recta de regresión por el método de mínimos cuadrados


Resumen: Estimación de Mínimo
Cuadrado Ordinario (MCO)
• La Función de Regresión Poblacional da una relación entre el
promedio de 𝑦 y diferentes valores de 𝑥.
• Para estimar los parámetros 0 y 𝛽1 se necesita tomar una muestra
de la población. Sea {(𝑥𝑖, 𝑦𝑖): 𝑖 = 1,…,𝑛} una muestra aleatoria de
tamaño 𝑛 tomada de la población, para toda 𝑖 puede escribirse:
𝒚𝒊=𝜷𝟏 +𝜷𝟐 𝒙𝒊 +𝒖𝒊
• Aquí 𝑢𝑖 es el término del error de la observación 𝑖 porque contiene
todos los demás factores distintos de 𝑥𝑖 que afectan a 𝑦𝑖.
• Una vez que se toma la muestra se calcula la función de regresión
muestral (FRM) a través del método de Mínimo Cuadrado Ordinario
(MCO) (Ojo: Hay otros métodos!) que minimiza el valor de los
residuos al cuadrado.
Valores ajustados y residuales
Ejercicio en clase: STATA
• TEMA: Salario y educación
• BASE DE DATOS: WAGE1
• Abrir la base de datos y el do file
• Command: describe // summarize//
• Construir gráfico con la dispersión de datos con el ajuste lineal
superpuesto
• Generar variable: gen
• Hacer la regresión: reg
Regresión salario sobre
educación
El intercepto -0,90 significa que

25
Source SS df MS Number of obs = 526
para una persona sin ninguna
F(1, 524) = 103.36
educación tiene un sueldo
Model 1179.73204 1 1179.73204 Prob > F = 0.0000 promedio de -0,90 centavos de

20
Residual 5980.68225 524 11.4135158 R-squared = 0.1648 dólares por hora. Es posible?
Adj R-squared = 0.1632

15
Total 7160.41429 525 13.6388844 Root MSE = 3.3784

La pendiente estimada de la

10
wage Coef. Std. Err. t P>|t| [95% Conf. Interval] ecuación implica que un año
adicional de educación hace que el
educ .5413593 .053248 10.17 0.000 .4367534 .6459651 salario por hora aumente en

5
_cons -.9048516 .6849678 -1.32 0.187 -2.250472 .4407687 promedio de 54 centavos de
dólares por hora.

0
෣ = −0,905 + 0,541 𝑒𝑑𝑢𝑐𝑎𝑐𝑖ó𝑛
𝑠𝑎𝑙𝑎𝑟𝑖𝑜 0 5 10 15 20
years of education

average hourly earnings Fitted values

Como varía el valor promedio


de y de acuerdo con la variación
de x
Base de datos: WAGE1
Ej. 2: Sueldo de los directores
generales (CEO) y rendimiento
sobre el capital
• Descargar la base de datos CEOSAL1.RAW
• Describir las variables salario y roe
• Hacer un gráfico de dispersión con estas dos
variables y con el ajuste lineal
• Hacer la regresión de salario sobre el
rendimiento sobre el capital.
• Conteste las siguientes preguntas:
1. Cuanto es el salario y el roe promedio?
2. Cuanto sería el salario promedio en el
caso de un roe del 20%?
Forma funcional de los
coeficientes
No siempre las variables se miden en sus unidades naturales o lo que llamaremos en niveles. En
ocasiones, las tasas de crecimiento o los crecimientos porcentuales de las variables resultan más
útiles desde el punto de vista practico (Ej. Salario y educación)
Log – Nivel (semielasticidad)
• En STATA para trasformar una variable a logaritmo se usa el
comando: generate
• Nombre nueva variable = ln (nombre variable que queremos
transformar) ej. gen l_wage=ln(wage)
Modelo poblacional
• log 𝑤𝑎𝑔𝑒 = 𝛽0 + 𝛽1 𝑒𝑑𝑢𝑐 + 𝑢
• %∆𝑤𝑎𝑔𝑒 = (100 ∗ 𝛽1 )∆𝑒𝑑𝑢𝑐
Source SS df MS Number of obs = 526
F(1, 524) = 119.58
Model
Residual
27.5606288
120.769123
1
524
27.5606288
.230475425
Prob > F
R-squared
=
=
0.0000
0.1858 Interpretación: Cada año
Total 148.329751 525 .28253286
Adj R-squared
Root MSE
=
=
0.1843
.48008
adicional de educación, el
salario promedio aumenta de
l_wage Coef. Std. Err. t P>|t| [95% Conf. Interval] 8,3%. Este es lo que se llama
educ .0827444 .0075667 10.94 0.000 .0678796 .0976091 rendimiento de la educación
_cons .5837727 .0973358 6.00 0.000 .3925563 .7749891
Log – Log (elasticidad)
• Usar la base de datos CEOSAL1.RAW
• Transformar las variables salary y sales en logaritmo
• Hacer la regresión salario (en logaritmo) sobre sales (en logaritmo)
• Interpretar el resultado

Source SS df MS Number of obs = 209


F(1, 207) = 55.30
Model 14.0661688 1 14.0661688 Prob > F = 0.0000
Residual 52.6559944 207 .254376785 R-squared = 0.2108
Adj R-squared = 0.2070
Total 66.7221632 208 .320779631 Root MSE = .50436

lsalary Coef. Std. Err. t P>|t| [95% Conf. Interval]

lsales .2566717 .0345167 7.44 0.000 .1886224 .3247209


_cons 4.821997 .2883396 16.72 0.000 4.253538 5.390455
Supuestos del modelo de Gauss
(Modelo clásico o estándar de regresión
lineal)
Como hemos dicho en las clases anteriores, el objetivo no es
solo estimar el valor de los estimadores, sino también inferir
los verdaderos betas poblacionales.
El modelo de Gauss o modelo clásico o estándar de regresión
lineal (MCRL) plantea los siguientes supuestos (5):
1. Linealidad en los parámetros;
2. Muestreo aleatorio;
3. Variación muestral de la variable explicativa
4. Media condicional cero Homocedasticidad o varianza
constante de ui
5. Homocedasticidad
1) Linealidad de los parámetros

• Consideramos el siguiente modelo de regresión:


Yi  1   2 X i  i
El modelo de regresión es lineal en los parámetros, aunque puede
o no ser lineal en las variables.
Son lineales en los parámetros estas funciones?
2) Muestreo aleatorio

Se cuenta con una muestra aleatoria n observaciones


𝑥𝑖1 , 𝑥𝑖2 , … . , 𝑥𝑖𝑘 , 𝑦𝑖 : 𝑖 = 1,2, … 𝑛 , que sigue el modelo poblacional del
supuesto 1.
3) Variación muestral de la
variable explicativa

No todos los valores muestrales de x, a saber


𝑥𝑖 , 𝑖 = 1, … . , 𝑛 son iguales, es decir no todos
tienen el mismo valor.

Que pasaría si todos tuvieran el mismo ingreso? Como podríamos ver el efecto de una unidad
adicional de ingreso en el consumo?
4) Media condicional cero
Dado el valor de X, la media o el valor esperado del término de
perturbación aleatoria 𝑢𝑖 es cero. En otras palabras,
𝐸 𝑢𝑥 =0

Es decir que los factores no incluidos explícitamente en el modelo (que están incorporados en u) no
afectan sistemáticamente el valor de la media de Y porque los valores positivos de u se compensan
con los valores negativos de manera que el efecto promedio es cero.
Insesgamiento de los
estimadores
Los primeros 4 supuestos implican el insesgamiento de los estimadores
de MCO.
Esto implica que su valor promedio o esperado es igual al valor
verdadero.
𝐸 𝛽መ𝑗 = 𝛽𝑗

Lo que significa que:


1) no hay sesgo de especificación o error de especificación
(omisión de variable, inclusión de variable irrelevante, elección de
una forma funcional equivocada)
2) La covarianza entre las dos variables es cero y, por lo tanto, las dos
Ojo: se espera que si la muestra es de alguna manera representativa, la estimación
variables no están correlacionadas ( x y u no están
deberá estar “cerca” del valor poblacional.
correlacionadas).
En general, el insesgamiento no se cumple cuando no se satisface alguno de los 4
supuestos.
Ej. 3:Desempeño de los estudiantes y
el programa de desayuno escolar
• Se desea estimar el efecto del programa federal de desayunos escolares
sobre el desempeño de los estudiantes.
• Se espera que este programa tenga un efecto ceteris paribus positivo
sobre el desempeño: si todos los demás factores permanecen constantes.
Lo que suponemos es que si a un estudiante que es tan pobre como para
no tener una buena alimentación se le beneficia con el programa de
desayunos escolares, su desempeño debería mejorar.
• Sea lnchprg el porcentaje de estudiantes beneficiados con el programa de
desayuno escolares y math10 el porcentaje de estudiantes que aprueban el
examen estandarizado de matemática en el primer año de bachillerato de
una escuela. El modelo de regresión es:
𝑚𝑎𝑡ℎ10 = 𝛽0 + 𝛽1 𝑙𝑛𝑐ℎ𝑝𝑟𝑔 + 𝑢.

• Descarga la base de datos MEAP93.RAW


• Encuentra:
• El número de observaciones
• Los estimadores
• Interprete los estimadores
• R-cuadrado
5) Homoscedasticidad o varianza
constante de 𝒖𝒊

La varianza del término de error, o de


perturbación, es la misma sin importar el valor
de X. Simbólicamente, tenemos que
𝑉𝑎𝑟 𝑢𝑖 = 𝜎 2
En otras palabras, Homocedasticidad o igual
varianza de ui. Dado el valor de X, la varianza de
ui es la misma para todas las observaciones, es
decir, las varianzas condicionales de ui son
idénticas.
Modelo clásico de regresión lineal:
supuestos detrás del método MCO

Homocedasticidad Heterocedasticidad
Bondad de ajuste
• Sirve para medir qué tan bien la variable explicativa o independiente, x, explica
la variable dependiente y. Es útil para saber qué tan bien se ajusta la línea de
regresión de MCO a los datos.
• Se define: 𝑆𝐸𝐶 𝑆𝑅𝐶
𝑅2 = =1−
𝑆𝑇𝐶 𝑆𝑇𝐶
• Se interpreta como la proporción de la variación muestral de y que es explicada
por x.
• El valor es entre 0 y 1.
• Donde:
• SEC (suma explicada de cuadrados) mide la variación muestral de las 𝑦ො𝑖
• SRC (suma residual de cuadrados)
• STC mide es la suma total de cuadrados y corresponde a la suma de SEC y SRC
Ejemplo