Está en la página 1de 36

Grado en Administración y Dirección de Empresas

Econometría

Tema 1. Inferencia estadística y econometría

Profesor Rafael Flores de Frutos


Tema 1. Inferencia estadística y econometría ..................................................................... 3

1. Desarrollo del contenido ............................................................................................... 5

1.1. Variables aleatorias continuas: La distribución normal y distribuciones asociadas ...... 5

1.1.1. Conceptos básicos ............................................................................................. 8

1.1.2. Distribución de la media y la varianza muestrales bajo normalidad ........................ 11

1.2. Intervalos de confianza .................................................................................... 13

1.2.1. Intervalo de confianza para la media poblacional de una variable aleatoria normal .. 13

1.2.2. Intervalo de confianza para la varianza poblacional de una variable aleatoria normal
.............................................................................................................................. 15

1.3. Propiedades de los estimadores ........................................................................ 16

1.4. Los modelos económicos, los modelos econométricos y el método de la econometría22

1.5. Aplicación práctica ................................................................................................ 25

1.5.1. Una aproximación a la teoría explicada .............................................................. 25

1.5.2. Relación de cuestiones resueltas para profundizar ............................................... 28

2. Resumen .................................................................................................................. 30

3. Mapa conceptual ....................................................................................................... 31

4. Recursos bibliográficos ............................................................................................... 32

2. Ejercicios Resueltos ................................................................................................... 32

2
Tema 1. Inferencia estadística y econometría

¿Qué información sobre una población puede proporcionarnos una muestra? La respuesta nos la
da la inferencia estadística.

Es habitual oír en los medios de comunicación que existe una brecha salarial entre hombres y
mujeres;que un estudio, llevado a cabo por determinado centro de investigación, basado en una
muestra a nivel nacional de más de 10 000 personas, la ha calculado.

¿Cómo se ha llegado a ese resultado? ¿Se ha calculado el salario medio de los hombres en la
muestra y se ha comparado con el salario medio de las mujeres en esa misma muestra? ¿La
diferencia entre ellos es la brecha de la que se habla? La respuesta es no; es más complejo. Los
salarios medios muestrales no tienen por qué ser iguales a los salarios medios poblacionales, que
son los que realmente nos interesan. Los expertos han tenido en cuenta esa diferencia y han
calculado un intervalo de confianza para la brecha, esto es, dos valores entre los cuales la brecha
va a estar con una probabilidad prefijada, el 95 % suele ser un estándar. Si los expertos, en su
informe, hubieran concluido que la brecha salarial, a favor de los hombres, se sitúa entre el 10 %
y el 30 %, con una probabilidad del 95 %, hubiera podido concluirse que la existencia de la brecha
es prácticamente segura, ya que la probabilidad de que ésta se sitúe por debajo del 10 % es de
tan solo un 2,5 %. Los periódicos suelen referirse al punto medio de ese intervalo, es decir el
20 %, como el valor de la brecha, sin hablar de los extremos o de la amplitud del intervalo que
nos daría información sobre la precisión con la que se ha estimado dicha brecha. No es lo mismo
decir que la brecha se estima en el 20 %, mas, menos el 10 % que se estima en el 20 %, mas,
menos el 40 %. La precisión es muy distinta.

El conjunto de técnicas que nos van a ayudar a inferir resultados poblacionales a partir de
resultados muestrales es lo que habitualmente se conoce como inferencia estadística.

La Econometría puede verse como una parte de la inferencia estadística. También puede verse,
sobre todo la econometría que estudiaremos este año, como la solución que da la Inferencia
estadística a un problema que sería similar al siguiente:

Consideremos dos variables económicas, por ejemplo, el salario de una persona t(yt) y los
años de educación recibidos por esa persona (xt,2). La teoría económica del capital humano
nos dice que esas variables deberían estar relacionadas, es más, nos dice que el salario
de una persona debería ser una función directa de sus años de educación, a más años de
educación más salario. No obstante, ¿es eso lo que está pasando en la realidad? ¿Hay
realmente una relación directa entre el salario de una persona y sus años de educación?,
si es así, ¿se puede medir? ¿Cuánto debe aumentar el salario de una persona por cada
año de educación adicional recibido? ¿Hay otras variables que influyan en el salario de una
persona?, ¿el ser mujer es una de ellas?, ¿cuál es su importancia?

Todas estas preguntas pueden contestarse utilizando las técnicas econométricas que
estudiaremos en esta asignatura, todas ellas forman parte de la inferencia estadística. Las dos
variables concretas son solo un ejemplo, imagínate otras dos variables relacionadas por la teoría
económica y hazte preguntas similares, la econometría es capaz de responderlas.

Esta primera unidad didáctica comienza introduciendo los conceptos básicos de inferencia
estadística, necesarios para entender la solución que da la econometría al problema anterior. Será

3
en la segunda unidad didáctica donde empezaremos a estudiar las técnicas econométricas
propiamente dichas. ¡Bienvenidos al curso!

4
1. Desarrollo del contenido

1.1. Variables aleatorias continuas: La distribución normal y


distribuciones asociadas

A partir de un experimento aleatorio, como lo es tirar una moneda al aire, se define una variable
aleatoria como la aplicación que asigna a cada suceso elemental del experimento, cara o cruz, un
número real, uno o cero. Dicha variable aleatoria queda perfectamente caracterizada por (1) los
valores que puede tomar y (2) por su función de probabilidad, esto es, la probabilidad de
realización de cada suceso o valor de la variable aleatoria.

El ejemplo de la moneda es el típico de una variable aleatoria discreta, ya que no puede tomar
cualquier valor en un intervalo de la recta real, solo puede tomar dos valores, el cero y el uno.
Cuando la variable aleatoria, por las características del experimento, pueda tomar cualquier valor
en un intervalo de la recta real, entonces estaremos hablando de una variable aleatoria continua.
Los valores que puede tomar son infinitos y se caracterizará: (1) por ellos y (2) por su función de
densidad. Recordemos que la función de densidad es necesaria para poder calcular la probabilidad
de que la variable tome valores dentro de cualquier intervalo previamente definido.

En estadística estudiábamos tres variables aleatorias continuas: La uniforme, la exponencial y


la normal. De las tres, sin duda, la más importante es la variable normal cuya función de densidad
es:

1 1
𝑓(𝑥) = exp[− (𝑥 − 𝜇)2 ]
𝜎 2𝜋 2𝜎 2
Donde x es la variable aleatoria, 𝐸(𝑥) = 𝜇 es su media poblacional y 𝜎 2 = 𝐸(𝑥 − 𝜇)2 es su varianza
poblacional.

Asociadas a la distribución Normal, existen tres variables aleatorias muy importantes:

(1) La χ2 de Pearson (chi-cuadrado de Pearson).


(2) La t de Student, y
(3) La F de Snedecor.

5
Para todas ellas existen, como en el caso de la normal estándar o estandarizada, la N(0,1), tablas
donde puede consultarse probabilidades del tipo Pr (𝑥 ≤ 𝑥0 ), donde 𝑥0 es un número real conocido.

Distribución 𝝌𝟐𝒏 :

Sea 𝑍𝑖 una distribución normal estándar o estandarizada:

𝑍𝑖 ∼ 𝑁(0,1).

Se define la variable 𝑋 según la expresión:

𝑋 = (𝑍1 )2 + (𝑍2 )2 + ⋯ + (𝑍𝑛 )2 ⟹ 𝑋 ∼ 𝜒𝑛2 .

Una variable chi cuadrado, con n grados de libertad, es la suma de n variables N(0,1)2. Se
demuestra que sus dos primeros momentos son:

𝐸[𝜒𝑛2 ] = 𝑛.

𝑉𝑎𝑟[𝜒𝑛2 ] = 2𝑛.

Existen tablas para la variable chi cuadrado para el cálculo de probabilidades, pero es más
eficiente quizás utilizar una hoja Excel. La expresión =DISTR.CHICUAD(X0;n;VERDADERO)
devuelve la probabilidad Pr (𝑥 ≤ 𝑥0 ) para una 𝝌𝟐𝒏 . Por ejemplo, la fórmula de Excel
«=DISTR.CHICUAD(9,487729037;4;VERDADERO)» da como resultado 0,95; esto es la
Pr(𝝌𝟐𝟒 ≤ 9,487729037) = 0,95.

No puede tomar valores negativos y tiene la siguiente forma:

Figura 1. Densidad chi cuadrado.

Distribución tn de Student:

Sea 𝑍 ∼ 𝑁(0,1) y sea 𝑋 una distribución chi cuadrado (𝜒𝑛2 ).

Se define la variable 𝑌 según la expresión:

6
𝑍 𝑁(0,1)
𝑌= ⟹ 𝑌 ∼ 𝑡𝑛 = 2
√𝑥/𝑛 √ 𝜒𝑛
𝑛

Una variable t es el cociente entre una variable N(0,1) y la raíz cuadrada de una chi cuadrado,
dividida por sus grados de libertad. Los grados de libertad de la distribución t son n, y se
demuestra que sus dos primeros momentos son:

𝐸[𝑡𝑛 ] = 0.
𝑛
𝑉𝑎𝑟[𝑡𝑛 ] = .
𝑛−2

Es simétrica, como la normal, y muy parecida a ella, con colas ligeramente más anchas:

Figura 2. Densidad t de Student.

Cuando n tiende a infinito, la distribución t converge a una N(0,1). A partir de n = 30, ambas
distribuciones son muy parecidas.

Existen tablas de la distribución t pero, como en el caso de la chi cuadrado, el cálculo de


probabilidades puede llevarse a cabo de forma eficiente con Excel. Por ejemplo, la expresión:
=DISTR.T.N(X0;n;VERDADERO) devuelve la probabilidad Pr (𝑥 ≤ 𝑥0 ) para una variable aleatoria tn.
Por ejemplo, la fórmula de Excel “=DISTR.T.N(1,96;30;VERDADERO)” devuelve 0,9703 que es la
probabilidad: Pr(𝑡30 ≤ 1,96) = 0,9703.

Distribución F:

Sean 𝑋𝑖 e 𝑌𝑖 ∼ 𝑁(0,1) independientes. Se define la variable 𝑊 según la expresión:


𝑋2 2 2
1 +𝑋2 +⋯+𝑋𝑛
𝑛
𝑊= 𝑌2 2 2 ⟹ 𝑊 ∼ 𝐹𝑛,𝑚
1 +𝑌2 +⋯+𝑌𝑛
𝑚

Una variable F es el cociente de dos variables chi cuadrado, independientes, divididas cada una
de ellas por sus grados de libertad. Por ese motivo:

𝑡𝑚 = √𝐹1,𝑚

7
Existen tablas de la distribución F pero como en los casos anteriores, el cálculo de probabilidades
puede hacerse rápidamente con Excel. Por ejemplo, la expresión:
=DISTR.F.N(X0;n;m;VERDADERO) devuelve la probabilidad Pr (𝑥 ≤ 𝑥0 ) para una variable aleatoria
Fn,m. Por ejemplo, la expresión =DISTR.F.N(2;5;15;VERDADERO) devuelve la expresión 0,86296
que es la probabilidad de que una variable aleatoria F 2,15 tome valores menores o iguales a 2.

Toma la forma:

Figura 3. Función de densidad de un F.

1.1.1. Conceptos básicos

Individuo: persona, animal o cosa poseedora de alguna característica de interés para el


investigador. Por ejemplo, un individuo puede ser una fecha, enero de 2020. En dicha fecha ha
tenido lugar un acontecimiento cuya evolución se quiere estudiar, como la cotización de una
acción, un determinado tipo de cambio, una prima de riesgo, la tasa de paro, etc. Un individuo
puede ser una vivienda de la que interesan varias características como su precio, su superficie,
etc. A cada característica se la denomina variable.

Población: conjunto finito o infinito de individuos homogéneos respecto a la característica que


se pretende estudiar. Por ejemplo, todas las viviendas de Burgos, todas las realizaciones al lanzar
una moneda al aire, todos los días que ha cotizado y cotizará el Banco Santander.

8
Muestra: una muestra es cualquier subconjunto de la población. No obstante, una muestra
también puede verse como conjunto o vector de n variables aleatorias (𝑥1 , . . . , 𝑥𝑛 ). La primera
variable, x1, es la variable aleatoria que resultaría de llevar a cabo el experimento aleatorio
siguiente: Se extrae de la población, por primera vez, un elemento para su estudio. Este individuo
posee una característica que se quiere estudiar. Dicha característica, por ejemplo, el nivel de
educación, puede tomar tres categorías (estudios primarios, estudios medios, estudios
superiores), por lo que la variable aleatoria podrá tomar tres valores (1, 2 y 3) dependiendo del
nivel de estudios que tenga la persona que ha sido extraída: 1 para estudios primarios, 2 para
medios y 3 para superiores. La segunda variable, x2, es la que resulta de extraer de la población,
por segunda vez, un elemento para su estudio. Se diferencia de x1 en que el experimento ha
tenido lugar en un momento distinto, pero no hay más diferencias, por lo que los valores que
puede tomar la variable son los mismos, así como su función de probabilidad (o densidad si la
variable fuera continua) son también las mismas. Igual sucede con x3, x4, … xn. A una realización
concreta de esa variable aleatoria vectorial (1, 3, 2, … 3) también la vamos a llamar muestra,
aunque más correcto hubiera sido llamarla realización de la muestra.

Cuando después de extraer a un individuo de la población y anotar sus características, se le vuelve


a introducir en la población, antes de realizar la segunda extracción, lo que tenemos es un tipo
especial de muestra, denominada muestra aleatoria simple (m. a. s.). Este tipo de muestra
se caracteriza por la independencia de todas las variables que la componen, ya que el resultado
de una extracción no condiciona el resultado de las siguientes. Todas las variables tienen la misma
función de densidad y, además, la función de densidad conjunta va a ser igual al producto de las
funciones de densidad marginales:

fc (x1 , ..., xn ) = f1 (x1 )...fn (xn ) = f (x1 )...f (xn ).

Lo que va a implicar que la covarianza entre cualesquiera dos componentes de la m. a. s. sea


cero.

Este tipo de muestreo que da lugar a una m. a. s., garantiza la representatividad de la muestra,
ya que por el teorema de Glivenko-Cantelli o teorema fundamental de la estadística, la función
de distribución empírica o muestral converge en probabilidad a la función de distribución
poblacional. Esto implica que las características muestrales van a converger a las
poblacionales. Dicho de otra manera, con una m. a. s. suficientemente grande las características
muestrales serán muy parecidas a las poblacionales.

Parámetro: un parámetro es cualquier constante poblacional desconocida asociada a una


variable aleatoria. Un parámetro es, por ejemplo, la media poblacional de una variable aleatoria,
la E(x). Si la población fuera finita, su cálculo llevaría consigo el cómputo de la v ariable x para
todos los individuos de la población, lo que resultaría, en el mejor de los casos, excesivamente
caro, para poblaciones grandes. En el caso de poblaciones infinitas, su cálculo, sencillamente,
no sería posible. La varianza poblacional, la moda poblacional, la mediana, el coeficiente de
asimetría poblacional, el coeficiente de curtosis poblacional, la covarianza poblacional entre dos
variables, el coeficiente de correlación poblacional entre dos variables y cualquier función de los
parámetros anteriores son más ejemplos de parámetros. El interés de la inferencia se centra
en esos parámetros, en «conocer» lo máximo posible acerca de ellos, ya que no será posible
calcularlos.

9
Estadístico muestral: es cualquier función de las variables que integran la muestra, cualquier
función de (𝑥1 , . . . , 𝑥𝑛 ). Algunos ejemplos:

𝑇1 (𝑋) = 𝑥2 + 𝑥4 + 𝑥6 +. . 𝑥𝑛 .

𝑇2 (𝑋) = 𝑥1 + 𝑥2 − ∑𝑛𝑖=3 𝑥𝑖𝜋


∑𝑛
𝑖=1 𝑥𝑖
𝑥= (media muestral)
𝑛

∑𝑛
𝑖=1 (𝑥𝑖 −𝑥)
2
𝑆2 = (varianza muestral)
𝑛

La varianza muestral, la moda muestral, la mediana, el coeficiente de asimetría muestral, el


coeficiente de curtosis muestral, la covarianza muestral entre dos variables, el coeficiente de
correlación muestral entre dos variables y cualquier función de los parámetros anteriores son
más ejemplos de estadísticos muestrales.

Un estadístico muestral, al ser una función de las variables aleatorias que forman la muestra,
es a su vez una variable aleatoria. Tomará un valor u otro dependiendo de la realización
muestral con la que se calcule. Esto es, para el caso de la media muestral, si la muestra o
realización muestral es (0, 0, 3), la media muestral tomará el valor 1. Si la muestra es (3, 3,
0) la media muestral tomará el valor 2. La realización de la media muestral no será conocida
hasta que no se conozca la muestra.

Estimador: un estimador es un estadístico muestral con el que se pretende aproximar el valor


de un determinado parámetro. Dependiendo de la cantidad de información que el estimador
tenga del parámetro (o lo que es igual, de las propiedades del estimador), así tendremos un
buen o un mal estimador del parámetro en cuestión.

Existen distintos métodos para conseguir buenos estimadores de cualquier parámetro, uno de
ellos es el método de los momentos, que consiste en asignar a cada parámetro poblacional su
correspondiente momento muestral. Así, como estimador de la media poblacional, este método
propone la media muestral; como estimador de la varianza poblacional, propone la varianza
muestral, y así sucesivamente. Este sencillo método siempre proporciona estimadores con
propiedades muy deseables. Esto es, estimadores con información relevante acerca de los
parámetros que pretenden aproximar.

10
Figura 4. Propiedades de los estimadores.

1.1.2. Distribución de la media y la varianza muestrales bajo normalidad

Los dos estadísticos muestrales más importantes, por el papel que juegan dentro de la
inferencia estadística, son la media y varianza muestrales. Ambos estadísticos son también
estimadores por el método de los momentos de los correspondientes parámetros poblacionales.

Si la muestra está formada por variables aleatorias continuas, ambos estimadores también
serán variables aleatorias continuas y por tanto tendrán una función de densidad, una media y
una varianza poblacionales. En este apartado calculamos la distribución de estos dos
estadísticos/estimadores tan importantes.

Distribución de la media muestral bajo el supuesto de normalidad:

Sea una muestra aleatoria simple (𝑥1 , . . . , 𝑥𝑛 ) de variables aleatorias 𝑥𝑖 ∼ 𝑁(𝜇, 𝜎 2 ). Dado que la
muestra es aleatoria simple, las variables que la integran serán independientes y la covarianza
entre cualesquiera dos de ellas será cero, esto es:

𝐶𝑜𝑣(𝑥𝑖 , 𝑥𝑗 ) ≡ 𝜎𝑖,𝑗 = 𝐸(𝑥𝑖 − 𝜇)(𝑥𝑗 − 𝜇) = 0 ∀ 𝑖 ≠ 𝑗.

Se puede demostrar que cualquier variable aleatoria construida como una combinación lineal de
∑𝑛
𝑖=1 𝑥𝑖
variables normales tiene a su vez una distribución normal. Dado que el estadístico 𝑥 = ,
𝑛
media muestral, es una combinación lineal de variables aleatorias normales, su distribución
también será normal:
1 1
𝑓(𝑥̅ ) = exp[− 2 (𝑥̅ − E(𝑥̅ ))2 ].
𝜎𝑥
̅ 2𝜋 2𝜎𝑥
̅

11
La media poblacional de la media muestral es:

1 1 1
𝐸(𝑥) = 𝐸 [ ∑𝑛𝑖=1 𝑥𝑖 ] = ∑𝑛𝑖=1 𝐸[𝑥𝑖 ] = ∑𝑛𝑖=1 𝜇 = 𝜇.
𝑛 𝑛 𝑛

Donde se ha utilizado que 𝐸(𝑥𝑖 ) = 𝜇 ∀ 𝑖, propiedad del m. a. s.

La varianza de la distribución queda:

1 1 1 𝜎2
𝑉(𝑥) = 𝑉 [ ∑𝑛𝑖=1 𝑥𝑖 ] = ∑𝑛𝑖=1 𝑉[𝑥𝑖 ] = ∑𝑛𝑖=1 𝜎 2 =
𝑛 𝑛2 𝑛2 𝑛

Donde se ha utilizado que 𝑉(𝑥𝑖 ) = 𝜎 2 y 𝐶𝑜𝑣(𝑥𝑖 , 𝑥𝑗 ) = 0 (m. a. s.), y, por tanto, la varianza de
una suma es la suma de las varianzas si las variables son independientes.

Si la función de densidad de la población es normal 𝑥𝑖 ∼ 𝑁(𝜇, 𝜎 2 ), entonces:


𝜎2
𝑥 ∼ 𝑁(𝜇, );
𝑛

esto es:

1 1 1 1
𝑓(𝑥̅ ) = exp[− 2 (𝑥̅ − E(𝑥̅ ))2 ] = 𝜎 exp[− 𝜎2
(𝑥̅ − μ)2 ].
𝜎𝑥
̅ 2𝜋 2𝜎𝑥
̅ 2𝜋 2
𝑛 𝑛

Distribución de la varianza muestral bajo el supuesto de normalidad:

Sea una muestra aleatoria simple (𝑥1 , . . . , 𝑥𝑛 ) de variables aleatorias, independientes e


idénticamente distribuidas 𝑥𝑖 ∼ 𝑁(𝜇, 𝜎 2 ).

El lema de Fisher-Cochran establece que bajo las circunstancias anteriores:


𝑛𝑠 2 ∑𝑛
𝑖=1 (𝑥𝑖 −𝑥)
2
(1) 2
∼ 𝜒𝑛−1 donde 𝑠 2 = .
𝜎2 𝑛
(2) 𝑥 y 𝑠 2 , la media y varianza muestrales, son independientes.
(𝑛−1)𝑠̂ 2 ∑𝑛
𝑖=1 (𝑥𝑖 −𝑥)
2
(3) 2
∼ 𝜒𝑛−1 donde 𝑠̂ 2 = .
𝜎2 𝑛−1

𝑛𝑠 2
Dado que 𝐸[𝜒𝑛2 ] = 𝑛, entonces 𝐸 ( ) = n − 1 y, por tanto, la media poblacional de la varianza
𝜎2
muestral será:
𝑛−1
𝐸(𝑠 2 ) = 𝜎 2 .
𝑛

𝑛𝑠 2
Dado que 𝑉𝑎𝑟[𝜒𝑛2 ] = 2𝑛, entonces y 𝑉𝑎𝑟[ ] = 2(𝑛 − 1), y, por tanto, la varianza poblacional de la
𝜎2
varianza muestral será:

12
𝑛−1
𝑉𝑎𝑟[𝑠 2 ] = 2𝜎 4 .
𝑛2

(𝑛−1)𝑠̂ 2
Usando 2
∼ 𝜒𝑛−1 se demuestra de forma similar que:
𝜎2

2
𝐸(𝑠̂ 2 ) = 𝜎 2 y 𝑉𝑎𝑟[𝑠̂ 2 ] = 𝜎 4 .
𝑛−1

1.2. Intervalos de confianza

1.2.1. Intervalo de confianza para la media poblacional de una variable


aleatoria normal

¿Cómo podemos aplicar lo que hemos aprendido hasta ahora?

Consideremos que xi, variable aleatoria normal, es la cotización a 31 de diciembre del año i de
una determinada compañía.

A cualquier inversor le gustaría conocer la media poblacional de xi, 𝐸(𝑥𝑖 ) = 𝜇, ya que la media
poblacional es el valor en torno al cual fluctúa la cotización. Una observación de xi por debajo de
dicha media poblacional mandaría un mensaje de compra al inversor, ya que este esperaría que
tarde o temprano el precio de la acción volviera a revertir a la media, incluso que la superara,
produciéndose así una ganancia.

El problema es que 𝐸(𝑥𝑖 ) = 𝜇 es un parámetro poblacional desconocido y no lo podremos calcular,


tan solo vamos a poder calcular un intervalo de confianza para él, esto es, dos valores de la recta
real entre los que, muy probablemente (es decir, con un 90 %, un 95 % o con un 99 % de
probabilidad) se encuentra. La confianza o probabilidad la puede fijar el investigador (nosotros).
El 90 %, 95 % y 99 % son tres estándares usados en la práctica.

Si sabemos que 𝜇 va a estar entre los 1,5 y 2,0 euros por acción con un 95 % de
probabilidad, cualquier precio igual o inferior a 1,5 será una señal de compra, ya que la
probabilidad Pr(𝜇 > 1,5) = 97,5 %; esto es, la probabilidad de que, en un futuro, veamos
cotizaciones por encima de 1,5 es muy alta. Esto es así por la reversión a la media que exhiben
las variables que disponen de ella.

¿Cómo calcular un intervalo para la media poblacional de una distribución normal?

Lo primero que se necesitará es una muestra aleatoria simple de la variable en cuestión, esto es,
una realización del vector (𝑥1 , . . . , 𝑥𝑛 ). Después habrá que seguir la estrategia siguiente:

(1) Dado que el parámetro para el que se quiere construir un intervalo de confianza es la
media poblacional, es necesario encontrar un buen estimador del parámetro, el mejor,
esto es, el que mejores propiedades tenga, y estudiar su distribución.
(2) A partir de la distribución del estimador, obtener un estadístico pivote o estadístico de
contraste. Un estadístico pivote es un estadístico muestral: (1) con una distribución

13
conocida, generalmente una N(0,1), una t, una chi cuadrado o una F (aunque puede
haber otras) y (2) en cuya expresión matemática aparece el parámetro en cuestión
como único término desconocido. Para este caso concreto el estadístico pivote se va a
distribuir como una t.
(3) Se debe fijar la probabilidad dentro del intervalo, esto es, el nivel de confianza que se
quiere tener asociado a que el parámetro se encuentre dentro del intervalo (90 %, 95
% o 99 %).

En este caso el parámetro es 𝜇, por lo que se usará su estimador por el método de los momentos
que es la media muestral.

La distribución de la media muestral es:


𝜎2
𝑥 ∼ 𝑁(𝜇, ).
𝑛

Tipificando dicha variable (esto es, restandole la media y dividiéndola por su desviación típica) se
obtiene:
𝑛(𝑥 − 𝜇)
𝜉= ∼ 𝑁(0; 1).
𝜎

Por otro lado, se sabe por Fisher-Cochran que:


𝑛𝑠 2
∼ 𝜒𝑛2 − 1 .
𝜎2

Con una variable N(0,1) y una chi cuadrado, independientes, se puede construir una t, como se
vió en el apartado 1.1, así:
𝑛(𝑥−𝜇)
(𝑥 − 𝜇)
𝜎
2
= 2
∼ 𝑡(𝑛 − 1) .
√ 1 𝑛𝑠2 √ 𝑠
𝑛−1𝜎 𝑛−1

Esto es un estadístico pivote que puede ser usado para la construcción de un intervalo de
confianza para 𝜇 , ya que (1) su distribución es conocida, una t con n − 1 grados de libertad y
(2) en su expresión matemática, el único parámetro desconocido que aparece es precisamente el
parámetro 𝜇 para el que se quiere construir intervalo de confianza.

A partir de la m. a. s. (𝑥1 , . . . , 𝑥𝑛 ), usando el estadístico pivote:

(𝑥−𝜇)
2
∼ 𝑡𝑛−1 .
√ 𝑠
𝑛−1

se puede calcular:

(𝑥 − 𝜇)
𝑃𝑟 (−𝑡𝛼/2 ≤ 2
≤ 𝑡𝛼/2 ) = P𝑟(−𝑡𝛼/2 ≤ 𝑡𝑛 − 1 ≤ 𝑡𝛼/2 ) = 1 − 𝛼
√ 𝑠
𝑛−1

14
Donde 𝛼 × 100 es lo que se llama nivel de significación, y (1 − 𝛼) × 100, nivel de confianza, 𝑡𝛼/2
1−𝛼
puede buscarse en las tablas de la t y es el valor de la tn - 1 que deja a su derecha el × 100%
2
1−𝛼
de la masa de probabilidad o 𝑃 (𝑡𝑛 − 1 > 𝑡𝛼 ) = × 100 %. Por ejemplo, para 𝛼 = 0,05 y n = 31, la
2 2

probabilidad 𝑃(𝑡30 > − 2,04227246) = 97,5 %.

Así, para 𝛼 = 0,05 y n = 31 las tablas de la t31 proporcionan:

(𝑥−𝜇) (𝑥−𝜇)
𝑃𝑟 (−𝑡𝛼/2 ≤ 2
≤ 𝑡𝛼/2 ) = 𝑃𝑟 (−2,04227246 ≤ 2
≤ 2,04227246) = 0,95.
√ 𝑠 √𝑠
𝑛−1 30

Despejando y dejando el parámetro en el medio de la desigualdad:

𝑠2 𝑠2
Pr (𝑥 − 𝑡𝛼 √ ≤ 𝜇 ≤ 𝑥 + 𝑡𝛼 √ ) = 1 − 𝛼.
2 𝑛−1 2 𝑛−1

En particular, para 𝛼 = 0,05 y n = 31:

𝑠2 𝑠2 𝑠2 𝑠2
Pr (𝑥 − 𝑡𝛼 √ ≤ 𝜇 ≤ 𝑥 + 𝑡𝛼 √ ) = Pr (𝑥 − 2,04227246√ ≤ 𝜇 ≤ 𝑥 + 2,04227246√ ) = 0,95.
2 𝑛−1 2 𝑛−1 30 30

Con lo que el intervalo para 𝜇, al (1 − 𝛼)100%, para un tamaño de muestra n, será:

𝑠2 𝑠2
[𝑥 − 𝑡𝛼/2 √ ; 𝑥 + 𝑡𝛼/2 √ ].
𝑛−1 𝑛−1

Igualmente, el intervalo para 𝜇 , al 95% y n=31 será:

𝑠2 𝑠2
[𝑥 − 2,04227246√ ; 𝑥 + 2,04227246√ ].
30 30

Recuerda que tanto 𝑥 como 𝑠 2 son conocidas, ya que se conocerán las observaciones muestrales
y se calcularán de la manera habitual:
∑𝑛
𝑖=1 𝑥𝑖 ∑𝑛
𝑖=1 (𝑥𝑖 −𝑥)
2
𝑥= y 𝑠2 = .
𝑛 𝑛

Si a partir de los datos muestrales se hubieran obtenido 𝑥 = 8,04227246 y 𝑠 2 = 30, entonces el


intervalo de confianza, al 95 % y n = 31, hubiera sido [6;10,08454492]. Esto es, se podría decir
que 𝜇, aunque desconocido, puede que esté entre 6 y 10,08454492 con una probabilidad del
95%.

1.2.2. Intervalo de confianza para la varianza poblacional de una variable


aleatoria normal

Si lo que se pretende es construir un intervalo de confianza para la varianza poblacional con una
muestra de tamaño n = 31 y con un nivel de confianza del (1 − 𝛼)100 % = 95 %, esto es, 𝛼 = 0,05,
el estadístico pivote que debe utilizarse es:

𝑛𝑠 2 2
∼ 𝜒𝑛−1 ,
𝜎2

15
𝑛𝑠 2 2
∼ 𝜒30
𝜎2

En este caso el lema de Fisher-Cochran proporciona directamente un estadístico pivote. La tabla


de la chi cuadrado nos permite encontrar los valores 𝜒𝛼𝑎 y 𝜒𝛼𝑏 en la expresión:
2 2

𝑛𝑠 2
𝑃 (𝜒𝛼𝑎 ≤ ≤ 𝜒𝛼𝑏 ) = 1 − 𝛼.
2 𝜎2 2

Para 𝛼 = 0,05 y n =31, 𝜒𝛼𝑎 = 16,7907723 y 𝜒𝛼𝑏 =46,9792422. Así:


2 2
𝑛𝑠 2
𝑃 (16,7907723 ≤ ≤ 46,9792422) = 0,95.
𝜎2

Y despejando a ambos lados se obtiene:

𝑛𝑠 2 𝑛𝑠 2
𝑃( 𝑎 ≥ 𝜎2 ≥ 𝑏 ) = 1 − 𝛼,
𝜒𝛼 𝜒𝛼
2 2

31𝑠 2 31𝑠 2
𝑃( ≥ 𝜎2 ≥ ) = 0,95.
16,7907723 46,9792422

Y, por lo tanto, el intervalo donde 𝜎 2 se encontrará, con una confianza del (1 − 𝛼)100 % = 95 %,
será:

𝑛𝑠 2 𝑛𝑠 2 31𝑠 2 31𝑠 2
[ 𝑏 ; 𝑎 ]=[ ; ].
𝜒𝛼 𝜒𝛼 46,9792422 16,7907723
2 2

1.3. Propiedades de los estimadores

Las propiedades de los estimadores permiten elegir entre ellos, así como seleccionar el mejor, o
el que más información tenga sobre un parámetro.

Insesgadez:

Sea un parámetro 𝜃 asociado a una variable aleatoria x. Se dice que un estimador 𝜃̂ es insesgado
de 𝜃 si se cumple:

𝐸(𝜃̂) = 𝜃.

Se define el sesgo de un estimador como:

16
𝑠𝑒𝑠𝑔𝑜(𝜃̂) = 𝐸(𝜃̂ ) − 𝜃.

En una población normal, con una m. a. s., la media muestral es un estimador insesgado
de la media poblacional, ya que 𝐸(𝑥̅ ) = 𝜇, como se demostró en el apartado 1.3.

Sin embargo, la varianza muestral no es un estimador insesgado de la varianza


𝑛−1 𝑛−1 −𝜎 2
poblacional, ya que 𝐸(𝑠 2 ) = 𝜎 2 ≠ 𝜎 2 , siendo su 𝑠𝑒𝑠𝑔𝑜(𝑠 2 ) = 𝐸(𝑠 2 ) − 𝜎 2 = 𝜎2 − 𝜎2 = . En
𝑛 𝑛 𝑛
cambio y, dado que 𝐸(𝑠̂ 2 ) = 𝜎 , la cuasivarianza muestral sí es un estimador insesgado de la
2

varianza poblacional.

La insesgadez es una propiedad deseable, ya que asegura que el estimador siempre va a


proporcionar estimaciones en torno al parámetro que se quiere estimar. No obstante, esa
propiedad no asegura la cercanía de las estimaciones al parámetro, solo asegura que el parámetro
será el centro del intervalo en torno al cual las estimaciones, de diferentes muestras, caerán.
Dicho intervalo podría ser muy amplio.

Figura 5. Estimadores de diferentes muestras.

La media muestral es un estimador insesgado de la media poblacional (µ):

𝑛 𝑛
∑𝑛𝑖=1 𝑥𝑖 1 1 1
𝐸(𝑋̄) = 𝐸 ( ) = 𝐸(∑ 𝑥𝑖 ) = ∑ 𝐸(𝑥𝑖 ) = [𝐸(𝑥1 ) + 𝐸(𝑥2 )+. . . +𝐸(𝑥𝑛 )]
𝑛 𝑛 𝑛 𝑛
𝑖=1 𝑖=1
1 1
= [𝜇 + 𝜇+. . . +𝜇] = 𝑛𝜇 = 𝜇 cqd.
𝑛 𝑛

17
Figura 6. Estimadores insesgados.

En este gráfico se muestran dos estimadores insesgados de la media poblacional, uno con
menor varianza que el otro.

Eficiencia:

Se llama eficiencia o precisión de un estimador a la inversa de la varianza de su distribución


muestral:
1
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝜃̂ ) = ̂ ).
𝑉(𝜃

Se dirá que un estimador 𝜃̂2 es más eficiente o más preciso que otro 𝜃̂1 si, siendo ambos
insesgados, se cumple que, para cualquier tamaño muestral:

𝑉(𝜃̂1 ) ≤ 𝑉(𝜃̂2 ) ⇔ 𝑒𝑓𝑖𝑐(𝜃̂1 ) ≥ 𝑒𝑓𝑖𝑐(𝜃̂2 )

La eficiencia es una propiedad relativa, compara el grado de eficiencia de dos estimadores,


mientras que la insesgadez es una propiedad absoluta; un estimador es insesgado o no, pero no
es más insesgado que otro.

18
Figura 7. Grado de eficiencia.

Eficiencia en error cuadrático medio:

Sirve para comparar dos estimadores, de los cuales uno al menos es sesgado.

Se define el error cuadrático medio de un estimador como:

𝐸𝐶𝑀(𝜃) = 𝐸[(𝜃̂ − 𝜃)2 ].

Se puede demostrar que:

𝐸𝐶𝑀(𝜃̂ ) = [𝑠𝑒𝑠𝑔𝑜(𝜃̂)]2 + 𝑉(𝜃̂).

Si el estimador es insesgado:

𝐸𝐶𝑀(𝜃̂ ) = 𝑉(𝜃̂).

Se dice que un estimador A es más eficiente, en términos del ECM, que otro estimador B, si el
ECM de A es menor que el ECM del B.

Insesgadez asintótica:

Un estimador 𝜃̂𝑛 es insesgado asintóticamente, de un parámetro 𝜃 si:

lim 𝐸(𝜃̂𝑛 ) = 𝜃
𝑛→∞

Consistencia:

Un estimador 𝜃̂𝑛 es un estimador consistente de un parámetro 𝜃 si:

lim Pr (|(𝜃̂𝑛 ) − 𝜃| < 𝜀) = 1.


𝑛→∞

Si la esperanza del estimador tiende al parámetro a medida que aumenta el tamaño de la muestra
y su varianza tiende a cero, entonces se demuestra que el estimador es consistente. Esto es, si
al aumentar la muestra, se cumple que:

𝐸(𝜃̂𝑛 ) → 𝜃.

19
𝑉(𝜃̂𝑛 ) → 0.

Entonces 𝜃̂𝑛 es consistente. La consistencia es una propiedad muy interesante, ya que garantiza
que, si la muestra es grande, es de esperar que la estimación caiga muy cerca del parámetro que
se pretende estimar.

La media muestral es un estimador consistente de la media poblacional, ya que:

(1) lim 𝐸(𝑥̅𝑛 ) = lim 𝜇 = 𝜇, y


𝑛→∞ 𝑛→∞
𝜎2 𝜎2
(2) lim 𝑉𝑎𝑟(𝑥̅𝑛 ) = lim = = 0.
𝑛→∞ 𝑛→∞ 𝑛 ∞

Lo mismo sucede con la varianza muestral, que es un estimador consistente de la varianza


poblacional.

Figura 8. Estimador consistente de la varianza poblacional.

El gráfico anterior ilustra la evolución de la función de densidad de un estimador consistente al


aumentar el tamaño muestral. La masa de probabilidad (área debajo de la curva) se va
concentrando en torno al parámetro a medida que el tamaño de la muestra crece. En el infinito,
toda la masa de probabilidad se concentra en el parámetro.

Ejercicio:

Para una m. a. s. de tamaño 4, de una población de media μ y de varianza kμ 2, considere los


siguientes estimadores de μ:
𝑥1 +4𝑥2
̂1 =
𝜇 .
5
𝑥1 +𝑥2 +𝑥3 +𝑥4
̂2 =
𝜇 .
3

a) Calcular el sesgo de 𝜇̂ 1 y 𝜇̂ 2 .
b) Calcular el error cuadrático medio de 𝜇̂ 1 y 𝜇̂ 2 .
20
c) ¿Cuál será más eficiente si k = 1? ¿y si k = 0,3?

Solución:

a) 𝑠𝑒𝑠𝑔𝑜(𝜇̂ ) = 𝐸(𝜇̂ ) − 𝜇.

𝑥1 + 4𝑥2 1 1 5𝜇
𝐸(𝜇̂ 1 ) = 𝐸 ( ) = [𝐸(𝑥1 ) + 4𝐸(𝑥2 )] = (𝜇 + 4𝜇) = = 𝜇.
5 5 5 5

𝜇̂ 1 es un estimador insesgado de 𝜇 ⇒ sesgo(𝜇̂ 1 ) = 0.


𝑥1 +𝑥2 +𝑥3 +𝑥4 1 4𝜇
𝐸 (𝜇̂ 2 ) = 𝐸 ( ) = [𝐸 (𝑥1 ) + 𝐸 (𝑥2 ) + 𝐸 (𝑥3 ) + 𝐸 (𝑥4 )] = ≠ 𝜇.
3 3 3

4𝜇 𝜇
𝜇̂ 2 es un estimador sesgado de 𝜇, 𝑐𝑜𝑛 sesgo(𝜇̂ 2 ) = 𝐸(𝜇̂ 2 ) − 𝜇 = − 𝜇 = 3.
3

b) 𝐸𝐶𝑀(𝜇̂ ) = 𝐸(𝜇̂ − 𝜇)2 = var( 𝜇̂ ) + [𝑠𝑒𝑠𝑔𝑜(𝜇̂ )]2 .

17 2 𝑥1 + 4𝑥2
𝐸𝐶𝑀(𝜇̂ 1 ) = 𝐸(𝜇̂ 1 − 𝜇)2 = var( 𝜇̂ 1 ) + [𝑠𝑒𝑠𝑔𝑜(𝜇̂ 1 )]2 = var( 𝜇̂ 1 ) + 0 =
𝑘𝜇 var( 𝜇̂ 1 ) = var ( )
25 5
1 1 17 2
= [var(𝑥1 ) + 16 var(𝑥2 )] = [𝑘𝜇2 + 16𝑘𝜇2 ] = 𝑘𝜇 .
25 25 25

4 𝜇 2 4 𝜇2 𝜇2
𝐸𝐶𝑀(𝜇̂ 2 ) = 𝐸(𝜇̂ 2 − 𝜇)2 = var( 𝜇̂ 1 ) + [𝑠𝑒𝑠𝑔𝑜(𝜇̂ 2 )]2 = 𝑘𝜇2 + ( ) = 𝑘𝜇2 + = (4𝑘 + 1) var( 𝜇̂ 2 )
9 3 9 9 9
𝑥1 + 𝑥2 + 𝑥3 + 𝑥4 1
= var ( ) = [var(𝑥1 ) + var(𝑥2 ) + var(𝑥3 ) + var(𝑥4 )]
3 9
1 4
= [𝑘𝜇2 + 𝑘𝜇2 + 𝑘𝜇2 + 𝑘𝜇2 ] = 𝑘𝜇2 .
9 9

c) Para comparar la eficiencia de estimadores sesgados e insesgados se debe comparar el


error cuadrático medio (ECM):

Si k = 1:

17 17
𝐸𝐶𝑀(𝜇̂ 1 ) = 𝑘𝜇 2 = 𝜇 2 = 0,68𝜇 2
25 25
𝜇2 5
} 𝐸𝐶𝑀(𝜇̂ 1 ) > 𝐸𝐶𝑀(𝜇̂ 2 ) ⇒ 𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑖𝑎(𝜇̂ 2 ) > 𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑖𝑎(𝜇̂ 1 ).
𝐸𝐶𝑀(𝜇̂ 2 ) = (4𝑘 + 1) = 𝜇 2 = 0, 5̑𝜇 2
9 9

Es más eficiente 𝜇̂ 2

Si k = 0,3:

21
17 17
𝐸𝐶𝑀(𝜇̂ 1 ) = 𝑘𝜇 2 = ⋅ 0,3 ⋅ 𝜇 2 = 0,204𝜇 2
25 25
𝜇2 2,2
} 𝐸𝐶𝑀(𝜇̂ 1 ) < 𝐸𝐶𝑀(𝜇̂ 2 ) ⇒ 𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑖𝑎(𝜇̂ 1 ) > 𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑐𝑖𝑎(𝜇̂ 2 ).
𝐸𝐶𝑀(𝜇̂ 2 ) = (4 ⋅ 0,3 + 1) = 𝜇 2 = 0,24𝜇 2
9 9

Es más eficiente 𝜇̂ 1 .

1.4. Los modelos económicos, los modelos econométricos y el método


de la econometría

Un modelo, en términos generales, es una representación simplificada de la realidad.

Un modelo económico es una representación simplificada de un fenómeno económico real,


entendido como conjunto de relaciones entre variables económicas. Esta representación se
hace en términos matemáticos.

La formulación de un modelo teórico no implica que se especifique de forma concreta la relación


entre las variables.

Por ejemplo, la expresión matemática para definir un modelo económico puede ser y = f(x),
siendo y una variable de estudio (por ejemplo, nivel de renta de los ciudadanos) y x un factor
que se supone que determina el nivel de renta de los ciudadanos (por ejemplo, nivel de
educación). La función f(x) que describe la relación entre renta y educación no se concreta.

Ahora, escribe un modelo económico en el que se especifique que la relación entre el nivel de
renta de los ciudadanos y su nivel de educación x es una relación lineal que viene marcada por la
pendiente β1. Especifica la función lineal de manera que, para un nivel de educación = 0, exista
un nivel de renta básico = β0. Tanto β0 como β1 son parámetros que nos van a explicar cuál es
nivel de renta para educación igual a 0 y cuál es la relación (en términos numéricos) entre la
educación y el nivel de renta. No te preocupes, vamos a profundizar más en los siguientes puntos
de la unidad, pero debes empezar a habituarte con la forma en que anotamos en econometría.
Dicho esto, el sencillo modelo propuesto tendría esta forma:

Nivel de renta = β0 + β1 (nivel de educación).

Esto significa que, para un nivel educativo 0, hay un nivel de renta β0 porque, al multiplicar el
nivel de educación (que es 0) por la β1, obtenemos un resultado de 0. Conforme el nivel educativo
va aumentando, suponemos que el nivel de renta también aumenta y, por ese motivo, ponemos
un signo positivo (+). Si creyéramos que un aumento en el nivel educativo genera una
disminución en el nivel de renta, entonces pondríamos el signo negativo (−).

Nota: Aunque no pongamos el signo negativo cuando estimemos este modelo en un software
estadístico, el software dará como resultado un signo negativo. ¡Veremos más sobre esto en las
siguientes unidades!

22
Pongamos otro ejemplo, la teoría económica tiene varios modelos que explican (o pretenden
explicar) los aumentos y disminuciones del consumo. Escribe un modelo económico en el que se
explique que el consumo C está determinado por el nivel de renta y, el nivel de precios p y el tipo
de interés r.

Consumo = β0 + β1 (nivel de renta) + β2 (nivel de precios) + β3 (tipo de interés).

Como en el anterior modelo, hay un consumo inicial que hacemos independientemente del nivel
de renta o del resto de variables porque hay bienes básicos como la comida que vamos a consumir
sí o sí. Luego, los parámetros nos dirán la relación que hay entre el consumo y el nivel de renta,
entre el consumo y los precios (aquí posiblemente haya una relación negativa, al aumentar los
precios, disminuye el consumo) y entre el consumo y el tipo de interés.

Un modelo econométrico es un modelo económico formulado de tal manera que:

• Se especifican las variables que afectan al fenómeno que se va a estudiar.


• Se concreta la forma funcional de las relaciones entre las variables de estudio.
• Se explicita la parte de la realidad que el modelo no es capaz de explicar.

Volvemos al modelo económico que relacionaba nivel de renta y con educación x, que se
representó con la forma: y=f(x) (donde y sería el nivel de renta y x sería la educación que significa
que el nivel de renta de un individuo depende de su nivel de educación).

Si a partir de este modelo queremos construir un modelo econométrico, tendremos que identificar
las variables que influyen en la renta. Supondremos que se considera que solo la educación afecta
a la renta del individuo, aunque otras variables como el sexo podrían influir en el salario final que
gana una persona.

Por otra parte, debemos identificar la relación entre las variables, es decir, la forma funcional que
relaciona las variables. En este caso se busca conocer cómo la educación afecta al nivel de renta
del individuo. Por lo tanto, diremos que la variable dependiente es el nivel de renta y la variable
independiente es la educación, de tal manera que en nuestro modelo el nivel de renta depende
del nivel de educación. Si el nivel de educación cambia, el nivel de renta se ve afecta y cambia
también.

En el caso del consumo, identificamos que las variables que influyen en el consumo son el nivel
de renta, los precios y los tipos de interés. La variable dependiente es el consumo porque este
dependerá de la cantidad de renta, del nivel de precios y de los tipos de interés que haya en cada
momento. Estas variables que ayudan a explicar cómo cambia el consumo son las variables
independientes. La econometría nos ayudará a saber qué relación real hay entre estas variables.

Llega más lejos

23
Escribe un modelo econométrico que relacione el consumo C con el nivel de renta y, el nivel
de educación e y el tipo de interés i. La relación de la educación con el nivel de renta es
cuadrática (no lineal) y la del tipo de interés es lineal.

Siguiendo el ejemplo anterior, suponemos una relación lineal:

y= β0+ β1x, donde y es el nivel de renta, x es el nivel de educación y β1 es un parámetro que


expresa la relación lineal entre educación y renta (también lo podemos escribir así: nivel de renta
= β0 + β1 [nivel de educación]).

β1 explica la variación lineal que experimenta la renta con cada variación unitaria que se produce
en la educación. Nos dice cuánto aumentará el nivel de renta si aumenta en una unidad la
educación. Por ejemplo, si β1 es 0,5, nos dice que al aumentar en una unidad la educación, el
nivel de renta aumentará en 0,5. Si β0 es 100 significa que el nivel de renta para alguien con un
cero de educación es 100.

En términos gráficos, β1 es la pendiente de la recta de la ecuación que estamos describiendo. Por


último, β0 es el punto de corte de la recta en el eje de ordenadas. Es decir, β0 representará el
nivel de renta para los casos en que el nivel de educación sea x = 0.

Por último, es preciso introducir un término u (llamado término de error o perturbación aleatoria)
que recoge la parte de realidad que no podemos explicar a través del modelo. Es decir, la
perturbación aleatoria recoge el efecto sobre la renta causado por otras variables distintas a la
educación que no han sido empleadas. Así, la expresión del modelo econométrico sería:

Y = β0 + β1x +u.

El término u recoge todo aquello que no está explicado por las variables independientes. En el
ejemplo anterior, el término u recogería todo lo que no está explicado por la educación. No todos
los cambios en el nivel de renta se pueden explicar por la educación. Como hemos dicho antes,
el sexo también es un determinante del nivel de renta. Por lo tanto, el término u recoge el efecto
sobre el nivel de renta causado, por ejemplo, por el sexo de la persona o la experiencia, entre
otras variables que nos hemos dejado que también ayudasen a explicar los cambios en el nivel
de renta.

A, B, C…

«La econometría es la aplicación de métodos estadísticos y matemáticos al análisis de datos


económicos con el propósito de dar contenido empírico a las teorías económicas y verificarlas
o refutarlas» (Maddala).

Ahora ya sabemos qué son un modelo económico y un modelo econométrico, y cuál es la finalidad
de la econometría; retomamos el concepto de esta a través de su definición.

24
Ahora bien, la econometría sigue un método concreto para cumplir su propósito. Pasamos a
describir brevemente las fases del método econométrico:

• Especificación del modelo econométrico. Basado en el modelo económico existente


en torno al área de estudio. Esta formulación ha de permitir la verificación empírica de las
relaciones especificadas. Además de determinar las variables que intervienen en el modelo
y la forma funcional de sus relaciones, es preciso tener en cuenta la realidad a la que serán
aplicables los resultados, y ser conscientes también de los datos económicos disponibles.
• Estimación de los parámetros desconocidos a partir de los datos. Se lleva a cabo a
través de métodos determinados que forman parte del cuerpo de conocimientos
metodológicos de la econometría. Para hacer la estimación se precisa disponer de una
muestra de datos, es decir, de los valores observados y registrados de las variables de
estudio.
• Validación o diagnosis del modelo. En esta etapa se llevan a cabo diferentes contrastes
de hipótesis mediante métodos de inferencia.
• Explotación de resultados del modelo. Tras validar el modelo, se procede a hacer un
análisis de los resultados: signo y magnitud de los coeficientes fruto de la estimación de
los parámetros del modelo. También se pueden hacer predicciones sobre cómo
evolucionarán unas variables condicionadas a los valores de otras.

Continuando con el ejemplo anterior, la especificación del modelo econométrico sería nivel de
renta = β0 + β1 (nivel de educación) + u. Este modelo está basado en la teoría de que el nivel de
renta depende de la educación (entre otras variables).

Decidimos que la variable que interviene en el modelo es el nivel de educación que se relaciona
con el nivel de renta, que es la variable que queremos explicar (variable dependiente). La
estimación de los parámetros consistiría en estimar este modelo con los datos que hayamos
conseguido de nivel educativo y rentas de la población que queramos estudiar (por ejemplo,
Zaragoza). Con esos datos y un software estadístico, se estima el valor de los parámetros. La
validación del modelo consistiría en saber si ese valor que nos da el parámetro es fiable β1 (es
decir, si tiene un efecto real sobre el nivel de renta). Finalmente, podemos utilizar esa estimación
para saber cuánto ganaría un individuo si su nivel de educación aumenta en 3 puntos, es decir,
la estimación del modelo nos permitirá hacer predicciones.

1.5. Aplicación práctica

1.5.1. Una aproximación a la teoría explicada

A modo de repaso, se expone un caso práctico que, de forma muy simplificada, recoge los
conceptos más importantes de esta unidad.

Suponed que trabajáis en una consultora de salud para países en desarrollo.

25
El Gobierno angolano os solicita, a través del Ministerio de Sanidad, un estudio sobre las
causas de mortalidad infantil, de cara a poder diseñar políticas sanitarias efectivas que
mejoren este indicador de salud.

Según la literatura, los factores que afectan a la mortalidad infantil son la edad de la madre
al nacer el niño, el nivel de educación de la madre, la calidad de agua y el nivel de renta del
hogar.

Disponemos de una encuesta llevada a cabo en 2011, en la que las observaciones son
hogares angolanos.

En primer lugar, y de forma muy simplificada, podemos pensar en el modelo que sustentaría
nuestro estudio. Aunque las variables no son puramente económicas, la finalidad de las
políticas que se obtendrán con él tiene estrechas relaciones con indicadores económicos.

El modelo económico sería V = f(a, e, w, y).

Las variables de este modelo son:

• V: indica el número de niños vivos en el hogar sobre el total de embarazos que ha


tenido la madre.
• a: edad de la madre cuando nació el primer hijo/a.
• e: años de educación de la madre.
• w: calidad del agua.
• y: ingresos del hogar.

La función f(.) relaciona las variables a, e, w e y con V.

Ahora bien, dado que queremos saber cuánto afecta cada uno de los factores a la
supervivencia de los niños de cada hogar, hemos de recurrir a la econometría para poder
ofrecer al Gobierno angolano un escenario concreto sobre las causas que están determinando
la mortalidad infantil en su país.

Solución:

Nos vamos a detener en la base de datos que tenemos. Es un conjunto de datos de corte
transversal. Tenemos N observaciones. Cada observación corresponde a un hogar. De cada uno
de los hogares, conocemos la siguiente información recogida a través de las variables: V, a, e,
w, y.

Así, la base de datos que observaremos se compondrá de N filas (una por cada observación, es
decir, por cada hogar) con seis columnas:

La primera, para el número de observaciones (1 a N), y el resto de las columnas corresponderá


a cada una de las variables.

26
2

V es la variable dependiente o explicada. Indica el número de niños vivos en el hogar sobre el


total de embarazos en el momento de la entrevista. Es una variable cuantitativa continua.

El resto de las variables serán independientes o explicativas.

• a es la edad de la madre cuando nació su primer hijo, expresada en años. Es una variable
cuantitativa discreta.
• e indica el número de años de educación de la madre cuando nació el primer hijo,
expresada en años. Es una variable cuantitativa discreta.
• w es la variable sobre calidad del agua. Se podrían considerar, por ejemplo, tres niveles,
en orden de mayor a menor según mayor calidad del agua: 2, 1, 0. Es una variable
cualitativa ordinal.
• y es la variable que indica el nivel de ingresos en unidades monetarias. Se puede
considerar cuantitativa continua.

Vamos a hacer la especificación de nuestro modelo econométrico:

Vi=β0+ β1ai + β2ei+ β3wi+ β4yi+εi.

Llega más lejos

• Piensa en otras variables que serían interesantes para la especificación del modelo.
• Piensa en algún modelo similar, pero que contemple el factor tiempo.
• Reflexiona en torno a las limitaciones que puede tener el uso de los datos de corte
transversal para considerar el factor tiempo.

En este caso, tenemos un modelo uniecuacional, en el que se han supuesto relaciones lineales
entre las variables explicativas y la explicada.

La relación de la variable edad con la variable supervivencia se supone que será negativa
mientras que la del resto de variables explicativas con la variable explicada se supone positiva,
es decir, a mayor número de años de educación, mejor nivel de calidad de agua y mayor nivel
de renta, mejores tasas de supervivencia infantil en los hogares. Así, esperaríamos que los
coeficientes β, asociados a estas variables, tuviesen signo positivo, mientras que el coeficiente
asociado a la edad, lo tuviese negativo.

Hemos supuesto, además, que estos coeficientes serán valores que nos indiquen una variación
constante de la tasa de supervivencia ante la variación unitaria de las variables explicativas.

Recordamos que el término ε representa la parte de la variable dependiente no explicada por


las variables independientes. Es decir, recoge el efecto de aquellos factores no observables que
afectan a la tasa de supervivencia infantil en los hogares angolanos distintos a los considerados

27
en el modelo. Por ejemplo, la nutrición de los niños o si el hogar está ubicado en una región en
la que existen programas de vacunación o no, etc.

1.5.2. Relación de cuestiones resueltas para profundizar

En este epígrafe se presenta una relación de cuestiones, afirmaciones, propuestas, todas


resueltas, para profundizar en los contenidos de esta lección:

¿Un modelo económico es un modelo econométrico?

No. Para que un modelo económico se convierta en un modelo econométrico, es necesario: (1)
especificar la forma funcional que liga a las variables que intervienen, (2) las variables tienen
que estar indexadas —indicando la fecha o el individuo al que pertenece la observación de la
variable— además, el modelo econométrico tiene que contener un término de error estocástico.

¿Cuáles son las etapas de las que consta el método econométrico?

(1) Especificación del modelo econométrico.


(2) Estimación del modelo econométrico.
(3) Diagnosis del modelo.
(4) Explotación de los resultados.

¿Cuál es el instrumento fundamental de la econometría?

El modelo econométrico. Sin él, no podría darse respuesta a ninguna de las preguntas que
plantea la econometría.

¿Qué papel juega el término de error en un modelo econométrico?

Recoge todas aquellas variables que influyen en la variable dependiente que no han sido
consideradas explícitamente en el modelo dentro del conjunto de variables explicativas.

¿Qué papel juega la constante en un modelo econométrico?

Es el valor que se espera que tome la variable que explicar (dependiente) cuando el resto de
las variables explicativas tome el valor cero.

Especifica un modelo econométrico en el que la variable dependiente y, continua, sea una


función lineal de una variable independiente x, también continua.

𝑌𝑖 = 𝛽1 + 𝛽2 𝑋𝑖 + 𝜀𝑖 A este modelo se le llama modelo lineal simple.

Escribe un modelo econométrico en el que el valor que tome la variable dependiente hoy sea
función o dependa del valor que tomó ayer.

Yt=β0 + β1Yt-1 + εt. A este modelo se le denomina modelo autorregresivo.

Clasifica los elementos del siguiente modelo econométrico

28
Ct = β1Rt + β2Zt + εt:

• Variables explicativas o exógenas: Rt y Zt.


• Variable endógena: Ct.
• Parámetros: β1 y β2.
• Perturbación aleatoria o término de error estocástico: εt.
• Tipo de modelo: Modelo uniecuacional lineal.

Aplicaciones informáticas en econometría:

En econometría es imprescindible el uso de herramientas informáticas que permitan la realización


de todo el proceso de tratamiento y análisis de las observaciones de las variables objeto de
estudio.

El avance de las tecnologías de la información y de la comunicación ha permitido el acceso a


aplicaciones empleadas tradicionalmente en el estudio econométrico que aportan prestaciones de
similar categoría que las aplicaciones informáticas de pago de licencia.

Entre las más conocidas están Stata, R, y Gretl, disponibles gratuitamente en la web. E-views es
una excelente alternativa, pero la licencia no es gratis.

Solo para introducirnos en ambos espacios, se recomienda dedicar unos minutos a


explorar las páginas oficiales del software Stata, del software R y del software Gretl.

29
2. Resumen

Esta unidad didáctica consta de dos partes. En la primera se han presentado los conceptos básicos
de inferencia estadística, necesarios para comprender el problema de inferencia que resuelve la
econometría, así como la solución que esta disciplina proporciona. En la segunda parte se
introduce el concepto de modelo econométrico, instrumento fundamental de la econometría, los
objetivos de la econometría y el método para alcanzarlos.

Los conceptos de inferencia estadística básicos expuestos son los de variable aleatoria continua,
distribución normal, distribuciones asociadas a la normal (distribución t de Student, distribución
chi cuadrado de Pearson y distribución F de Snedecor), individuo, población, muestra y muestreo
aleatorio simple, estadístico muestral, estimador, propiedades de los estimadores, distribución de
la media y varianza muestrales, bajo normalidad, e intervalos de confianza para la media y
varianza de una población normal.

La econometría es la disciplina científica que explica y predice los fenómenos económicos,


empleando modelos expresados en forma matemática y utilizando métodos estadísticos de
estimación y contraste.

Para ello, se precisa información sobre la variable o variables que se quieren explicar. Es decir,
que la aplicación de los métodos econométricos requiere de datos, a partir de los cuales se harán
las estimaciones que nos darán información sobre los valores de los coeficientes que determinan
la relación entre las variables de estudio.

Se han definido los conceptos de modelo económico y modelo econométrico, aclarando la


diferencia entre uno y otro. El modelo econométrico describe la relación funcional entre las
variables y tiene en cuenta, al incorporar un término de error estocástico, todas aquellas variables
no recogidas en el conjunto de información concreto utilizado, esto es, las variables explicativas
olvidadas o no consideradas explícitamente en el análisis.

30
3. Mapa conceptual

31
4. Recursos bibliográficos

Bibliografía básica

Wooldridge, J. M. (2014). Introducción a la econometría (4.ª ed.). Cengage Learning.

Bibliografía complementaria

Newbold, P., Carlson, W. L. y Thorne, B. M. (2013). Estadística para administración y economía.


Pearson.

Otros recursos

Stata. (s. f.). Your data tell a story. https://www.stata.com/

Sitio oficial del software Stata.

R Foundation. (s. f.). The R Project for Statistical Computing. https://www.r-project.org/

Sitio oficial del software R.

E-views. http://register1.eviews.com/lite/

2. Ejercicios Resueltos

ELECCION_MULTIPLE

1. Considera el siguiente estimador de la media de una población normal:

𝜇̂ = 𝑥̅ + 3.

Es un estimador insesgado. NO

Su sesgo es igual a 6. NO

Cuanto el tamaño de la muestra tiende a infinito su sesgo tiende a cero. NO

Su varianza es igual a la de 𝑥̅ . SI

a) No, es sesgado, ya que la 𝐸(𝜇̂ ) = 𝐸(𝑥̅ ) + 𝐸(3) = 𝜇 + 3 ≠ 𝜇.

b) No, su sesgo es igual a 𝐸(𝜇̂ ) − 𝜇 = 3.

32
c) No, porque el lim 3 = 3.
𝑛→∞

d) Sí, ya que la Var(𝜇̂ ) = Var(𝑥̅ + 3) = Var(𝑥̅ ).

ELECCION_MULTIPLE

2. Un modelo econométrico es un modelo económico suficientemente detallado, y


requiere que se conozca/n:

La forma funcional, la enumeración y la descripción estadística de las variables que SI


forman parte de él.

Los valores que en el futuro tomarán las variables de estudio. NO

La incorporación del carácter probabilístico, mediante uso de constantes. NO

Ninguna es correcta. NO

a) En efecto, para expresar un modelo econométrico, es necesario establecer las


variables que lo componen y la relación funcional que las une.

b) Los valores futuros de las variables no se conocen a priori, sino tras la estimación
del modelo econométrico.

c) La constante, como su nombre indica, no incorpora un carácter probabilístico al


modelo.

d) La primera opción es correcta.

ELECCION_MULTIPLE

3. Se quiere especificar la ecuación de un modelo econométrico que relacione el


gasto sanitario (H) con gasto público del año anterior (gt −1), la población mayor
de 65 años (e) y el PIB (y):

La ecuación del modelo sería:

33
H = F(g, e, y). NO

H = β0x + β1gt-1 + β2e + β3y + εt. NO

Ht = β0 + β1gt-1 + β2et + β3yt + εt. SI

H = β0 + β1gt-1 + β2e + β3y+ ε4x. NO

a) La forma funcional no está definida.

b) La variable x no está definida y no hay subíndices.

c) La especificación es correcta, al recoger adecuadamente todos los componentes


del modelo.

d) El término de error está multiplicado por una variable x y las variables carecen
de subíndices.

ELECCION_MULTIPLE

4. Los parámetros son:

β0, β1, β2, β3. SI

β0, β1, β2, β3, ε4. NO

g, e, y. NO

H, g, e, y. NO

a) Efectivamente, los parámetros reflejan el efecto de cada una de las variables


explicativas, más la constante, sobre la variable explicada. Los parámetros se
estiman en el modelo econométrico.

b) El término de error no es un parámetro.

c) Son variables, no parámetros.

34
d) Son variables, no parámetros.

ELECCION_MULTIPLE

4. A partir de una muestra aleatoria simple de 101 observaciones se tiene que: 𝑥̅ = 10


y 𝑠 2 = 4. Las tablas de la distribución t indican que la Pr(t100 < 1,98) = 0,975; las tablas
de la distribución de la chi cuadrado indican que la Pr(𝜒100
2
< 74,22) = 2,5 % y Pr(𝜒100
2
<
129,56) = 97,5 %. El intervalo de confianza para la media poblacional 𝜇 al 95 % es:

[9,060; 10,693]. NO

[9,640; 10,963]. NO

[9,604; 10,396]. SI

[9,406; 10,639]. NO

c) La fórmula introducida en el apartado 1.4 es:


𝑠2 𝑠2
d) [𝑥 − 𝑡𝛼/2 √ ; 𝑥 + 𝑡𝛼/2 √ ]=
𝑛−1 𝑛−1

4 4
= [10 − 1,98√ ; 10 + 1,98√ ]= [9,604; 10,396].
100 100

ELECCION_MULTIPLE

5. A partir de una muestra aleatoria simple de 101 observaciones se tiene que: 𝑥̅ =


10 y 𝑠 2 = 4. Las tablas de la distribución t indican que la Pr(t100 <1,98) = 0,975, las
tablas de la distribución de la chi cuadrado indican que la Pr(𝜒100
2
< 74,22) = 2,5% y
Pr(𝜒100
2
< 129,56) = 97,5 %. El intervalo de confianza, al 95 %, para la varianza
poblacional 𝜎 2 es:

[3,110; 5,043]. NO

35
[3,181; 5,344]. NO

[3,810; 5,430]. NO

[3,118; 5,443]. SI

La expresión para el intervalo de confianza es:

𝑛𝑠 2 𝑛𝑠 2 101×4 101×4
[ 𝑏 ; 𝑎 ]=[ ; ] = [3,118; 5,443].
𝜒𝛼 𝜒𝛼 129,56 74,22
2 2

Donde n = 101, 𝑠 2 = 4, 𝛼 = 0,05, 𝜒𝛼𝑎 = 74,22 y 𝜒𝛼𝑏 = 129,56.


2 2

36

También podría gustarte