Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Clase2 revisiónCE
Clase2 revisiónCE
29/11/2021
Contenido
1. Introducción
2. Repaso de probabilidad
1. Introducción
¿Qué es la econometría?
Es la ciencia que recopila y analiza datos observacionales o no experimentales a traés de métodos estadís-
ticos.Los datos no experimentalesson datos sobre individuos, empresas o segmentos de la economía que no
son obtenidos por medio de experimentos controlados. (A los datos no experimentales en ocasiones también
se les llama datos retrospectivos o datos observacionales, para subrayar el hecho de que el investigador
es recolector pasivo de los datos. La econometría permite el estudio de relaciones economicas-financieras,
contrastar teorías económicas, pronóstico de variables económico-finacieras, evaluación e implementación
de políticas públicas usando métodos estadísticos (Wooldridge 2010). Pero en la actualidad se está dando
enfasis a los datos experimentales a travez de experimentos aleatorizados controlados.
1
Datos de sección cruzada o corte trasversal
Son datos sobre individuoas, familias, empresas, países en umento determinado del tiempo. Datos usados,
por ejemplo, en microeconomía aplicada (economía laboral, organización industrial, finanzas corporativas,
demografía, economía de la salud, etc.)
Normalmente son datos que proceden de un muestreo aleatorio simple, lo que simplifica sustancialmente el
análisis. Pero a veces no es así:
• Muestreo sobre la riqueza, lo más ricos menos dispuesto a revelar su riqueza → Problema de selección
de la muestra
library(wooldridge)
data("wage1")
# Explorar la base de datos
head(wage1)
## wage educ exper tenure nonwhite female married numdep smsa northcen south
## 1 3.10 11 2 0 0 1 0 2 1 0 0
## 2 3.24 12 22 2 0 1 1 3 1 0 0
## 3 3.00 11 2 0 0 0 0 2 0 0 0
## 4 6.00 8 44 28 0 0 1 0 1 0 0
## 5 5.30 12 7 2 0 0 1 1 0 0 0
## 6 8.75 16 9 8 0 0 1 0 1 0 0
## west construc ndurman trcommpu trade services profserv profocc clerocc
## 1 1 0 0 0 0 0 0 0 0
## 2 1 0 0 0 0 1 0 0 0
## 3 1 0 0 0 1 0 0 0 0
## 4 1 0 0 0 0 0 0 0 1
## 5 1 0 0 0 0 0 0 0 0
## 6 1 0 0 0 0 0 1 1 0
## servocc lwage expersq tenursq
## 1 0 1.131402 4 0
## 2 1 1.175573 484 4
## 3 0 1.098612 4 0
## 4 0 1.791759 1936 784
## 5 0 1.667707 49 4
## 6 0 2.169054 81 64
tail(wage1)
## wage educ exper tenure nonwhite female married numdep smsa northcen south
## 521 5.65 12 2 0 0 0 0 0 0 0 0
## 522 15.00 16 14 2 0 1 1 2 0 0 0
## 523 2.27 10 2 0 0 1 0 3 0 0 0
## 524 4.67 15 13 18 0 0 1 3 0 0 0
## 525 11.56 16 5 1 0 0 1 0 0 0 0
2
## 526 3.50 14 5 4 1 1 0 2 0 0 0
## west construc ndurman trcommpu trade services profserv profocc clerocc
## 521 1 1 0 0 0 0 0 0 0
## 522 1 0 0 0 0 0 1 1 0
## 523 1 0 0 0 1 0 0 1 0
## 524 1 1 0 0 0 0 0 1 0
## 525 1 0 1 0 0 0 0 0 0
## 526 1 0 0 0 0 0 1 0 1
## servocc lwage expersq tenursq
## 521 0 1.7316556 4 0
## 522 0 2.7080503 196 4
## 523 0 0.8197798 4 0
## 524 0 1.5411590 169 324
## 525 0 2.4475510 25 1
## 526 0 1.2527629 25 16
Series temporales
Son observaciones a lo largo del tiempo. Por ejemplo, datos de cotizaciones, oferta monetaria, ventas de
vehículos, precios, PIB, tipos de interés, commodities
• Es un tipo de datos más difíciles de analizar, y no se puede asumir que las obseraciones son indepen-
dientes
• Lo más relevante: modelización de la dependencia
data("AirPassengers")
AP <-AirPassengers
AP
## Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
## 1949 112 118 132 129 121 135 148 148 136 119 104 118
## 1950 115 126 141 135 125 149 170 170 158 133 114 140
## 1951 145 150 178 163 172 178 199 199 184 162 146 166
## 1952 171 180 193 181 183 218 230 242 209 191 172 194
## 1953 196 196 236 235 229 243 264 272 237 211 180 201
## 1954 204 188 235 227 234 264 302 293 259 229 203 229
## 1955 242 233 267 269 270 315 364 347 312 274 237 278
## 1956 284 277 317 313 318 374 413 405 355 306 271 306
## 1957 315 301 356 348 355 422 465 467 404 347 305 336
## 1958 340 318 362 348 363 435 491 505 404 359 310 337
## 1959 360 342 406 396 420 472 548 559 463 407 362 405
## 1960 417 391 419 461 472 535 622 606 508 461 390 432
# Graficar
plot(AP)
3
600
500
400
AP
300
200
100
Time
# ciclo
boxplot(AP~cycle(AP))
4
600
500
400
AP
300
200
100
1 2 3 4 5 6 7 8 9 10 11 12
cycle(AP)
Para tener un tamaño mayor de la muestra se pueden combinar los cortes trasversales, juntado la
encuesta de dos años distintos
Combinar (o juntar) los cortes transversales de años distintos suele ser una buena manera de analizar los
efectos de las nuevas políticas públicas. La idea es recolectar datos de años anteriores y posteriores al cambio
de la política.
Datos de panel
Son series temporales para cada individuo de una sección cruzada, es decir, es una combianción entre la serie
de tiempo y el corte trasversal
data("wagepan")
head(wagepan)
## nr year agric black bus construc ent exper fin hisp poorhlth hours manuf
## 1 13 1980 0 0 1 0 0 1 0 0 0 2672 0
## 2 13 1981 0 0 0 0 0 2 0 0 0 2320 0
## 3 13 1982 0 0 1 0 0 3 0 0 0 2940 0
## 4 13 1983 0 0 1 0 0 4 0 0 0 2960 0
## 5 13 1984 0 0 0 0 0 5 0 0 0 3071 0
## 6 13 1985 0 0 1 0 0 6 0 0 0 2864 0
5
## married min nrthcen nrtheast occ1 occ2 occ3 occ4 occ5 occ6 occ7 occ8 occ9 per
## 1 0 0 0 1 0 0 0 0 0 0 0 0 1 0
## 2 0 0 0 1 0 0 0 0 0 0 0 0 1 1
## 3 0 0 0 1 0 0 0 0 0 0 0 0 1 0
## 4 0 0 0 1 0 0 0 0 0 0 0 0 1 0
## 5 0 0 0 1 0 0 0 0 1 0 0 0 0 1
## 6 0 0 0 1 0 1 0 0 0 0 0 0 0 0
## pro pub rur south educ tra trad union lwage d81 d82 d83 d84 d85 d86 d87
## 1 0 0 0 0 14 0 0 0 1.197540 0 0 0 0 0 0 0
## 2 0 0 0 0 14 0 0 1 1.853060 1 0 0 0 0 0 0
## 3 0 0 0 0 14 0 0 0 1.344462 0 1 0 0 0 0 0
## 4 0 0 0 0 14 0 0 0 1.433213 0 0 1 0 0 0 0
## 5 0 0 0 0 14 0 0 0 1.568125 0 0 0 1 0 0 0
## 6 0 0 0 0 14 0 0 0 1.699891 0 0 0 0 1 0 0
## expersq
## 1 1
## 2 4
## 3 9
## 4 16
## 5 25
## 6 36
2. Repaso de probabilidad
• La mayoría de los aspectos en el mundo real presenta algún tipo de aleatoriedad
• La teoría de probabulidad nos ofrece herremientas matemáticas para cuantificar y describir esa aleato-
riead
Espacio muestral (Ω): conjunto de todos los posibles resultados de un experimento (tirar una moneda dos
veces, nro. de veces que se estropea un computador mientras se redacta un trabajo, lazamiento de un dado)
Suceso: subcojunto del espacio muestral
Variable aleatorio (X): es una función X : Ω → R que representa un resumen numérico de un resultado
aleatorio
relación de todos los valores posibles de la variable junto con la probabilidad de que ocurra cada valor
6
Distribución de probabilidad de una variablea aleatoria contínua
Momentos
• Variable aleatoria discreta: media ponderada de los valores de la variable aleatoria, donde las
ponderaciones son las probabilidades de cada valor
var(X) = E[(X − µx )2 ]
* Variable aleatoria discreta
Ecuación general
mean(1:6)
7
## [1] 3.5
Z ∞
var(X) = (x − E(x))2 fx (x)dx
−∞
var(1:6)
## [1] 3.5
p
σX = var(x)
### Otras medidas de forma de la distribución
La media y la desviación típica miden dos características importantes de la distribución de una variable
aleatoria: su centro y su dispersión. Hay otras medidas que recogen información sobre otras características
de la distribución:
E[(X − µx )3 ]
Asimetria : 3
σX
* Curtosis: mide cuanta masa probabilística se encuentra en las colas de la distribución. A mayor curtosis,
más probables son los datos atípicos
E[(X − µx )4 ]
Curtosis 4
σX
* Curtosis mayor 3: distribución leptocúrtica
• Muchas cuestiones económicas implican dos o más variables, educación y estatus laboral, renta y
género,. . .
• El análisis de un marco multivariante requiere de la comprensión de los conceptos de distribución
conjunta, marginal y condicional
Distribución conjunta de dos v.a. discretas: probabilidad de que las dos variables tomen valores
concretos simultáneamente. Ejemplo: lluvia(X), tiempo de desplazamiento (Y): P r(X = x, Y = y)
Distribución de probabilidad marginal: distribución de probabilidad de cada una de las variables
aleatorias. Se puede calcular a partir de la función de distribución conjunta
8
P r(Y = y, X = x)
P r(Y = y|X = x) =
P r(X = x)
Esperanza condicional de Y dado X: es la media de la distribución condicional de Y dado X
• P (Y = y|X = x) = P r(Y = y)
• P r(Y = y, X = x) = P r(Y = y)P r(X = x)
• Estas definiciones pueden extnderse a más de dos variables
cov(X, Y ) σXY
corr(X, Y ) = p =
var(X)var(Y ) σX σY
* Si corr(X, Y ) = 0, X e Y están inconrrelacionales
• −1 ≤ corr(X, Y ) ≤ 1
9
• var(c) = 0
• var(X + Y ) = var(X) + var(Y ) + 2cov(X, Y )
• var(cX + bY ) = c2 var(X) + b2 var(Y ) + 2cbcov(X, Y )
• Si X e Y son independientes, cov(X, Y ) = 0
• cov(X, X) = var(X)
• cov(c, X) = 0
La distribución normal
2
• La distribución chi-cuadrado con m grados de libertad (Xm ): es la distribución de la suma de
m variables aleatorias normales estándar independientes al cuadrado
• La distribución t de Student con m grados de libertad (tm ): es la distribución del cociente
entre una variable aleatoria normal estándar y la raíz cuadrada de una variable aleatoria chi-cuadrado
independientemente distribuida con m grados de libertad dividida por m. Presenta forma de campana
similar a la normal, con más probabilidad en las colas. Conforme m aumenta se va aproximando a la
normal estándar (para m > 30 buena aproximación)
• La distribución F con m y n grados de libertad* (Fm,n ):es la distribución del cociente entre
una variable aleatoria chi-cuadrado con m grados de libertad dividida por m, y una variable aleatoria
chi-cuadrado independientemente distribuida con n grados de libertad dividida por n
10
Muestreo aletorio y distribución de la media muestral
Muestreo aleatorio simple:
¡¡Importante!!: Bajo el muestreo aleatorio simple, la colección de variables aleatorias Y1 , Y2 , ..., Yn son
independientes e idénticamente distribuidas (i.i.d.)
1 1
(Y1 + Y2 + ... + Yn ) = Σni=1 Yi
Ȳ =
n n
Importante: la media muestral es una variable aleatoria (el valor de Ȳ es distinto para distintas muestras
extraídas aleatoriamente)
Como Ȳ es una variable aleatoria tiene una distribución de probabilidad, se le conoce como La distrbución
muestral de Ȳ
La media de Ȳ
Supongamos que Y1 , Y2 , ..., Yn son i.i.d., tal que E(Yi ) = µY , entonces:
1 n
E(Ȳ ) = Σ E(Yi ) = µY
n i=1
La varianza de Ȳ
Supongamos que var(Yi ) = σY2 , tenmos:
1 n σY2
var(Ȳ ) = Σ i=1 var(Yi ) =
n2 n
La distribución muestral de Ȳ
Supongamos que Y1 , Y2 , ..., Yn son i.i.d. extraidas de una distribución N (µY , σY2 )
11
Aproximación asintótica
• La ley establece que Ȳ estará cerca de µY con muy alta probabilidad cuando n → ∞
• Cuando n aumenta la distribución muestral de Ȳ va estando cada vez más y más centrada en µY
• Esta propiedad se denominda covergencia en probabilidad lo que implica consistencia
• La ley de los grandes números establece que: bajo condiciones generales, la media muestral
converge a la media poblacional
• De esta forma, diremos que:
– Ȳ converge en probabilidad a µY
– Ȳ es un estimador consistente de µY
• Condiciones generales
12
√
n(Ȳ −µY )
• Media estandarizada σY
13