Está en la página 1de 76

ECONOMETRÍA

CAPÍTULO 1: REVISIÓN
DE CONCEPTOS BÁSICOS
Fernando Herrera García
Agenda
■ Operadores de sumatoria
■ Espacio muestral, puntos muestrales y sucesos
■ Probabilidad y variables aleatorias
■ Función de densidad de probabilidad (FDP)
■ Características de las distribuciones de probabilidad
■ Algunas distribuciones de probabilidad teóricas importantes
■ Inferencia estadística: estimación
■ Inferencia estadística: pruebas de hipótesis
Operadores de sumatoria y de producto
Espacio muestral, puntos muestrales y
sucesos
■ Espacio muestral: el conjunto de todos los
resultados posibles de un experimento aleatorio
■ Punto muestral: cada elemento de este espacio
muestral
■ Suceso: un subconjunto del espacio muestral
– sucesos mutuamente excluyentes
– sucesos exhaustivos (colectivamente)
Probabilidad
■ P(A) es la probabilidad del suceso A, o la proporción de veces
que el suceso A ocurrirá en ensayos repetidos de un
experimento
■ P(A) es una función de valor real y tiene estas propiedades:

1. 0 ≤ P(A) ≤ 1 para todo A.


2. Si A, B, C, … es un conjunto de sucesos exhaustivo,
P(A + B + C + · · ·) = 1
3. Si A, B, C, … son sucesos mutuamente excluyentes,
entonces
P( A + B + C + ·· ·) = P(A) + P(B) + P(C) + ·· ·
Variables Aleatorias (VA)
■ Variable aleatoria: variable cuyo valor está determinado por
el resultado de un experimento al azar
– Se denotan usualmente por las letras mayúsculas: X, Y, Z,
– Los valores que toman se denotan por letras minúsculas,
x, y, z,
■ Pueden ser:
– Discreta: adquiere sólo un número finito de valores
– Continua: puede tomar cualquier valor dentro de un
intervalo
FUNCIÓN DE DENSIDAD
DE PROBABILIDAD (FDP)
FDP: variable aleatoria discreta
■ Sea X una va discreta que toma valores diferentes x1, x2,
……. xn. Entonces, la función

f (x) = P(X = xi ) para i = 1, 2, . . . , n, . . .


=0 para x ≠ xi

se denomina función de densidad de probabilidad discreta


(FDP) de X, donde P (X = xi) significa la probabilidad de que la
va discreta X tome el valor de xi.
Ejemplo

■ En un lanzamiento de dos dados la variable aleatoria X, la


suma de los números que aparecen en dos dados, puede
tomar uno de los 11 valores mostrados. La FDP de esta
variable se muestra como sigue:

x = 2 3 4 5 6 7 8 9 10 11 12
f(x) = (1/36) (2/36) (3/36) (4/36) (5/36) (6/36) (5/36) (4/36) (3/36) (2/36) (1/36)
■ Función de densidad de la variable aleatoria discreta
Función de densidad de probabilidad
(FDP): variable aleatoria continua
■ Sea X una va continua. Entonces, se dice que f (x) es la FDP
de X si se satisfacen las siguientes condiciones:

donde
– f (x)dx es el elemento probabilístico (probabilidad asociada
a un intervalo de una variable continua)
– P(a ≤ X ≤ b) significa la probabilidad de que X se encuentre
en el intervalo entre a y b
Nota:

Para una va continua la probabilidad de que X tome un valor


específico es 0; la probabilidad para tal variable sólo se mide
sobre un intervalo dado (a, b)
Ejemplo
Considere la siguiente función de densidad:
1
= 0≤ ≤3
9
Se verifica con facilidad que f (x) ≥ 0 para toda X en el rango 0
a 3 ya que ∫ =1

Si deseamos evaluar la FDP anterior entre 0 y 1, obtenemos


∫ = = ; es decir, la probabilidad de que X
se encuentre entre 0 y 1 es de 1/27.
Ejemplo (2)
■ Función de densidad de la variable aleatoria discreta
CARACTERÍSTICAS DE LAS
DISTRIBUCIONES DE
PROBABILIDAD
Valor esperado
■ El valor esperado de una VA discreta X, denotado por E(X ),
se define:

donde ∑ significa la suma sobre todos los valores de X y f


(x) es la FDP de X.
■ El valor esperado de una VA continua se define:
Ejemplo 1
Considere la distribución de probabilidades de la suma de dos
números en el lanzamiento de dos dados analizada en el
ejemplo anterior. ¿Cuál es el valor esperado?

E (x) =2 (1/36) + 3(2/36) + 4(3/36) +5 (4/36) +6(5/36) +7(6/36)


+8(5/36) +9(4/36) + 10(3/36) +11(2/36) +12(1/36) = 7

que es el valor promedio de la suma de los números


observada en un lanzamiento de dos dados.
Ejemplo 2
Cuál es el valor esperado de la FDP continua del ejemplo
anterior
Varianza (1)
■ La varianza mide la distribución o dispersión de los valores
de X alrededor del valor esperado

donde X es la VA y E(X)= μ

■ Se calcula:
Varianza (2)
■ Por conveniencia de cálculo, la fórmula de la varianza
anterior se expresa también como:
Ejemplo
■ Determinemos la varianza de la VA continua del ejemplo anterior

Como E(X) = 9/4


Covarianza
■ Sean X y Y dos va con medias μx y μy, respectivamente.
Entonces, la covarianza entre las dos variables se define:

Se calcula:
VA discretas

VA continuas
Ejemplo
■ La siguiente tabla presenta la FDP conjunta de las variables
discretas X y Y.
Ejemplo
■ La siguiente tabla presenta la FDP conjunta de las variables
discretas X y Y.
Entonces
Coeficiente de correlación
■ ρ es una medida de la asociación lineal entre dos variables
y su valor se sitúa entre −1 y +1, donde −1 indica una
perfecta asociación negativa y +1 indica una perfecta
asociación positiva.
Ejemplo
Estime el coeficiente de correlación para el ejemplo anterior
σx = 2,05 y σy = 1,50
σx2 = E (X2) – [E(X)]2
[E(X)]2 = (-2)2 x 0,27 + 02 x 0,12 + 22 x 0,26 + 32 x 0,35 = 5,27

[E(X)]2 = (1,03)2 = 1,0609


σx2 = 5,27 -1,0609
σx = 2,05
ρ = 2,24/(2,05)(1,50) = 0,73
ALGUNAS DISTRIBUCIONES
DE PROBABILIDAD
TEÓRICAS IMPORTANTES
Distribución normal
■ Es simétrica alrededor de su valor medio.
■ Alrededor del 68% del área bajo la curva normal está entre
μ ± σ, alrededor de 95% entre μ ± 2σ y alrededor de 99.7%
entre μ ± 3σ.
■ Depende de dos parámetros: μ y σ2. Entonces con ellos se
puede encontrar la probabilidad de que X esté dentro de
cierto intervalo mediante la FDP de la distribución normal.
■ Esta labor se aligera con la tabla correspondiente, donde se
convierte la variable dada X normalmente distribuida con
media μ y σ2 en una variable Z normal estandarizada.

■ valor medio de Z es 0
■ varianza de Z es 1
Ejemplo
Suponga que X ∼ N(8, 4) ¿Cuál es la probabilidad de que X
tome un valor entre X1 = 4 y X2 = 12?.
Para calcular la probabilidad requerida, obtenemos los
valores Z como

De la tabla observamos que Pr(0 ≤ Z ≤ 2) = 0,4772. Por


simetría, tenemos Pr(–2 ≤ Z ≤ 0) = 0,4772. Entonces, la
probabilidad requerida es 0.4772 + 0,4772 = 0,9544.
Ejemplo
Suponga que X ∼ N(8, 4) ¿Cuál es la probabilidad de que X
tome un valor entre X1 = 4 y X2 = 12?.
Para calcular la probabilidad requerida, obtenemos los
valores Z como

De la tabla observamos que Pr(0 ≤ Z ≤ 2) = 0,4772. Por


simetría, tenemos Pr(–2 ≤ Z ≤ 0) = 0,4772. Entonces, la
probabilidad requerida es 0.4772 + 0,4772 = 0,9544.
Distribución χ2 (ji cuadrada)
■ Sean Z1, Z2, . . . , Zk variables normales estandarizadas
independientes (variables normales con media cero y
varianza unitaria). Así, se dice que la cantidad

sigue la distribución χ2 con k grados de libertad (gl),


donde gl significa el número de cantidades
independientes en la suma anterior.
■ Una variable distribuida como ji cuadrada se denota por
donde el subíndice k indica los gl
■ La distribución χ2 es asimétrica. El grado de asimetría
depende de los gl. A medida que aumenta el número de gl
la distribución es cada vez más simétrica
■ La media de la distribución ji cuadrada es k y su varianza es
2k, donde k son los gl.
■ Si Z1 y Z2 son dos variables ji cuadrada independientes con
k1 y k2 gl, la suma Z1 + Z2 es también una variable ji
cuadrada con gl = k1 + k2.
■ Ejemplo: ¿Cuál es la probabilidad de obtener un valor χ2 de 40
o superior, si los gl son 20?.
Como muestra la tabla, la probabilidad de obtener un valor χ2 de
39.9968 o mayor (20 gl) es 0.005. Por consiguiente, la
probabilidad de obtener un valor χ2 de 40 es menor que 0.005,
probabilidad un tanto baja.
Distribución t de Student
Si Z1 es una variable normal estandarizada [Z1 ∼ N(0, 1)] y
otra variable Z2 sigue la distribución ji cuadrada con k gl y
está distribuida independientemente de Z1, entonces la
variable definida como

sigue la distribución t de Student con k gl.


■ Una variable distribuida t se designa con frecuencia como tk
, donde el subíndice k denota los gl.
■ La distribución t, tal como la distribución normal, es
simétrica, pero es más plana que la normal. Sin embargo, a
medida que aumentan los gl, la distribución t se aproxima a
la distribución normal.
■ La media de la distribución t es cero y su varianza es
k/(k − 2).
■ Ejemplo:
Si gl = 13, ¿cuál es la probabilidad de obtener un valor t (a) de 3 o
más, (b) de alrededor de −3 o más pequeño y (c) de |t | de
alrededor de 3 o superior.
De la tabla, las respuestas son (a) alrededor de 0.005, (b)
alrededor de 0.005 debido a la simetría de la distribución t y (c)
alrededor de 0.01 = 2(0.005).
Distribución F
Si Z1 y Z2 son variables ji cuadrada distribuidas en forma
independiente con k1 y k2 gl, respectivamente, la variable

sigue la distribución F (de Fisher) con k1 y k2 gl. Una variable


que sigue una distribución F se denota por Fk1 K2, donde los
subíndices indican los gl asociados con las dos variables Z, y
donde k1 son los gl del numerador y k2 los gl del
denominador.
■ Al igual que la distribución ji cuadrada, la distribución F está
sesgada hacia la derecha. Pero puede demostrarse que, a
medida que aumentan k1 y k2, la distribución F se acerca a la
distribución normal.
■ El valor de la media de una variable con distribución F es k2/(k2
− 2), el cual está definido para k2 > 2 y su varianza es

definida para k2 > 4..


■ El cuadrado de una variable aleatoria con distribución t con k gl
sigue una distribución F con l y k gl. Simbólicamente,
Ejemplo: Si k1 = 10 y k2 = 8, ¿cuál es la probabilidad de obtener un
valor F (a) de 3.4 o mayor y (b) de 5.8 o mayor?
Como muestra la tabla, estas probabilidades son (a) aproximadamente
0.05 y (b) aproximadamente 0.01.
■ Si el número de gl del denominador, k2, es relativamente alto, se
cumple la siguiente relación entre las distribuciones F y ji cuadrada:

Es decir, para un número de gl del denominador relativamente grande,


los gl del numerador multiplicados por el valor F equivalen
aproximadamente a un valor ji cuadrada con los gl del numerador.
Ejemplo: Sean k1 = 20 y k2 = 120. El valor F crítico a 5% para estos gl
es 1.48. Por consiguiente, k1F = (20)(1.48) = 29.6. De la distribución ji
cuadrada para 20 gl, el valor crítico ji cuadrada a 5% es alrededor de
31.41
Nota:

Dado que para un número grande de gl las distribuciones t, ji


cuadrada y F se aproximan a la distribución normal, estas tres
se conocen como distribuciones relacionadas con la
distribución normal.
Distribución binomial de Bernoulli
Una variable aleatoria X sigue una distribución de Bernoulli si
su función de densidad de probabilidad (FDP) es:
P ( X = 0) = 1 − p (fracaso)
P ( X = 1) = p (éxito)
donde p, 0 ≤ p ≤ 1, es la probabilidad de que algún suceso sea
un “éxito”, como la probabilidad de que caiga cara en un
lanzamiento de moneda. Para tal variable,
E(X) = [1 × p ( X = 1) + 0 × q (X = 0)] = p
var (X) = pq
donde q = (1 − p), es decir, la probabilidad de un “fracaso”.
Ejemplo

Se lanza un dado y se define el evento que salga un cuatro

■ Éxito: si sale el número cuatro


■ Fracaso: caso contrario
■ P (E) = 1/6 P (F) = 5/6
■ E (x) = 1/6 V (x) = 1/6 * 5/6 = 5/36
Distribución binomial
Es la generalización de la distribución de Bernoulli. Sea n el
número de intentos independientes, cuyos resultados son un
“éxito” con una probabilidad p y un “fracaso” con una
probabilidad q = (1 − p). Si X representa el número de éxitos en
n intentos, se dice que X sigue una distribución binomial cuya
FDP es:

donde x representa el número de éxitos en n intentos y


donde

Para dicha distribución, E(X) = n p


var (X) = np(1 − p) = n p q
Ejemplo

■ En un hospital se tiene una unidad de 20 enfermos con una


enfermedad grave transmisible con una probabilidad de
muerte de 1/6, ¿cual será la probabilidad de que puedan
morir 15 pacientes?.
■ P(E)= p = 1/6, y q = 5/6
Distribución de Poisson
Se dice que una variable aleatoria X tiene distribución de
Poisson si su FDP es:

La distribución de Poisson depende de un solo parámetro: λ. Se


distingue porque su varianza es igual a su valor esperado, que
es λ. O sea,
E(X) = var (X) = λ
Con este se construyen modelos de fenómenos raros o poco
frecuentes, como el número de llamadas recibidas en un lapso
de 5 minutos, o el número de multas por rebasar el límite de
velocidad recibidas en el transcurso de una hora
INFERENCIA ESTADÍSTICA:
ESTIMACIÓN
Muestreo
■ Consiste en extraer una parte de elementos o individuos de una
población grande, de tal manera que, con base en esta muestra
se puedan estudiar las características o atributos de la
población.
■ Dado que la muestra permite reproducir las características de la
población, estamos infiriendo los atributos de la población
estudiada, y por lo tanto se dice que la muestra es
estadísticamente representativa
Estimación
Si X sigue una distribución normal y queremos conocer el valor
de la media y la varianza. Para estimar las incógnitas, el
procedimiento usual es suponer que tenemos una muestra
aleatoria de tamaño n de la distribución de probabilidades
conocida y con la información muestral estimar los parámetros
desconocidos.
Sean X1, X2, . . . , Xn n variables aleatorias con FDP conjunta f
(x1, x2, . . . , xn). Si escribimos f (x1, x2, . . . , xn) f (x1) f (x2) · · ·
f (xn)
donde ƒ(x) es la FDP común de cada X, se dice que x1, x2, . . .
, xn constituyen una muestra aleatoria de tamaño n de una
población con FDP f (xn).
Estimación puntual (1)
■ Sea X una variable aleatoria con FDP f (x; θ), donde θ es el
parámetro de la distribución.
■ Suponga que conocemos la forma funcional. Es decir, la
FDP teórica. Ej.: la distribución t, pero no el valor de θ.
■ Obtenemos una muestra aleatoria de tamaño n para esta
FDP conocida y elaboramos una función de valores
muestrales tal que

proporciona una estimación del verdadero θ.


Estimación puntual (2)
■ Entonces, se conoce como un estadístico o estimador, y
un valor numérico particular que tome el estimador, como
una estimación.
■ proporciona una regla o fórmula que indica la forma de
estimar el verdadero θ. Así, si

■ donde es la media muestral, entonces es un estimador


del verdadero valor de la media, es decir μ
■ Es un estimador puntual porque proporciona sólo una
estimación (puntual) de θ.
Estimación por intervalos (1)
■ En la estimación por intervalos se proporciona un intervalo
de posibles valores dentro de los cuales se encuentra el
verdadero θ.
■ En lugar de obtener sólo una estimación puntual de θ,
supongamos que obtenemos dos estimaciones de θ al
construir dos estimadores 1(x1, x2,….,xn) y 2(x1, x2,….,xn), y
se dice con alguna confianza (probabilidad) que el intervalo
entre 1 y 2 incluye el verdadero θ.
■ El concepto clave implícito es la noción de muestreo, o de
distribución de probabilidades, de un estimador.
Estimación por intervalos (2)
■ Por ejemplo, si una variable X está normalmente distribuida,
entonces la media muestral también está normalmente
distribuida con media μ (la verdadera media) y varianza σ2/n,
donde n es el tamaño de la muestra.
■ En otras palabras, la distribución muestral, o de probabilidad, de
un estimador es ~ N(μ, σ2 /n). Como resultado, si
construimos el intervalo

y decimos que hay una probabilidad de aproximadamente 0,95,


o 95%, de que intervalos como éste incluyan la verdadera μ,
estamos construyendo un estimador por intervalos de μ.
■ Observe que el intervalo anterior es aleatorio, pues se basa en
, la cual variará de muestra en muestra.
Estimación por intervalos (3)
■ En general, en la estimación por intervalos construimos dos estimadores
1 y 2 ambos funciones de los valores muestrales de X, de forma que

■ Es decir, la probabilidad de que el intervalo de 1 a 2 contenga el


verdadero θ es 1 − α.
■ Este intervalo se conoce como intervalo de confianza de tamaño
1−α para θ, con 1−α como coeficiente de confianza.
■ Si α = 0,05 entonces 1−α = 0,95 Significa que en construcciones
repetidas como ésta acertaremos 95 de cada 100 veces si
sostenemos que el intervalo contiene el verdadero θ.
■ Si el coeficiente de confianza es 0,95, se dice que se tiene un
intervalo de confianza a 95%.
■ α se conoce como nivel de significancia, o probabilidad de cometer
un error tipo I.
Teorema del límite central
¿Qué sucede con la distribución muestral de la media
conforme se hace más grande el tamaño de la muestra?
– Intuitivamente se esperaría que un tamaño de muestra
más grande conduce a un estimador de la media más
cercano a la media poblacional

TLC: si la variable aleatoria X tiene una media μ y una varianza


σ2, entonces la distribución muestral de se vuelve
aproximadamente normal con media μ y varianza σ2/ N
conforme N se incrementa.
– Esto es importante porque para muestras
suficientemente grandes, la suposición de normalidad
nos permite simplificar las pruebas estadísticas.
Propiedades deseables de los
estimadores: ausencia de sesgo
es un estimador insesgado si la media o valor esperado de
es igual al valor verdadero; es decir, E ( ) = β.
Sesgo = E( ) - β
Propiedades deseables de los
estimadores: eficiencia

■ es un estimador insesgado eficiente si para un tamaño


muestral dado la varianza de es menor que la varianza de
cualquier otro estimador insesgado.
■ Un estimador es más eficiente que otro si tiene una
varianza menor
■ En el caso extremo de un estimador insesgado con
varianza cero podemos afirmar con certeza el valor
numérico del parámetro de regresión verdadero
Propiedades deseables de los estimadores:
error cuadrático medio mínimo
■ Cuando la meta de un modelo es maximizar las
predicciones, un estimador con varianza muy baja y un
pequeño sesgo puede ser más deseable que un estimador
insesgado con una varianza alta. Al respecto, puede ser útil
la meta de minimizar el error cuadrático medio.
Propiedades deseables de los
estimadores: consistencia
■ Un estimador es consistente si la distribución de
probabilidad del estimador se plega a un solo punto (el
parámetro verdadero)
INFERENCIA ESTADÍSTICA:
PRUEBAS DE HIPÓTESIS
Definición de prueba de hipótesis

■ La inferencia estadística es un procedimiento o método


para calcular una probabilidad que nos permite decidir
si una afirmación o hipótesis planteada es o no
verdadera con base en una muestra aleatoria de datos,
es decir, con base en la experimentación.
Estructura de una prueba de hipótesis
Considerando que la afirmación o hipótesis planteada
(llamada hipótesis nula) podría ser falsa suele
complementarse con una hipótesis alternativa para cubrir el
rango de posibilidades de la prueba.

■ Hipótesis nula (Ho): no hay diferencias significativas


■ Hipótesis alternativa (H1): si existen diferencias
significativas
Error tipo I y tipo II
Respecto de la decisión que se adopte con la afirmación o
hipótesis nula, podemos cometer dos errores:
■ Rechazar la hipótesis nula, siendo verdadera, y
■ No rechazar (aceptamos) la hipótesis nula, siendo falsa.
En la primera situación, cometemos lo que se llama error tipo I,
mientras que en la segundo el llamado error tipo II.
Estos errores se miden con conceptos de probabilidad condicional
que fueron abordados anteriormente, y se denotan como:
■ α (alfa) para el error tipo I
■ ß (beta) para el error tipo II
■ Es común tomar valores de 0,05 o 0,01 para la región crítica y a
los complementos de estos valores 0,95 (95%) y 0,99 (99%) suele
llamarse nivel de confianza de la prueba.
– Esta interpretación debe considerar la teoría de muestreo. Es
decir que de todas las muestras posibles de tamaño n que
pueden construirse, por ejemplo, en el 95% de las veces,
obtendremos el mismo resultado o conclusión.
■ El cuantil o valor teórico (de las tablas) es el valor de la ley de
probabilidad de la prueba, que divide a la distribución de
probabilidad en dos: región crítica o de rechazo de la hipótesis nula
y región de confianza o aceptación de la hipótesis nula.
■ Con los datos obtenidos de la experimentación (muestra aleatoria),
se construye la estadística de prueba y se contrasta con el cuantil
teórico. Si el estadístico es mayor que el cuantil se tiene la
suficiente evidencia para rechazar la hipótesis nula, caso contrario
podemos aceptar la hipótesis nula.
Probabilidad de significancia
estadística (p)
■ Es el valor de la probabilidad que existe desde el estadístico
calculado con la muestra aleatoria de datos hasta el
infinito.

■ Se la obtiene cuando realizamos estas pruebas con algún


paquete informático y es suficiente para decidir sobre la
prueba de hipótesis, evitando recurrir a tablas para obtener
los cuantiles de las leyes de probabilidad de las pruebas.
■ Ejemplo: si el tamaño de la región crítica de la hipótesis
nula es de 0,05 o 5% (95% de confianza), este es el tamaño
de la cola de la ley de probabilidad.
■ Si p=0.35, vemos que esta probabilidad es más grande que
la probabilidad α (0.05) de la región crítica. Por tanto el
estadístico calculado cae en la región de la hipótesis nula
(puesto que le cubre totalmente a la región crítica).
■ Por esta razón se suelen dar como regla (al 95% de
confianza) :
– si p > 0.05, se acepta la hipótesis nula
– si p < 0.05, se rechaza la hipótesis nula
Pruebas de hipótesis: prueba para una media
Sea X1, X2, X3, … ,Xn una muestra aleatoria de una variable
con distribución normal con media μ y varianza constante. Se
plantea
Ho la media μ es igual a un parámetro μo (μ = μo)
H1: la media μ no es igual a un parámetro μo (μ ≠ μo)
Para esto se calcula el siguiente estadístico:
x : media de la muestra
μo : parámetro que deseamos probar
σ : desviación estándar poblacional
n : tamaño de la muestra

t se ajusta a la ley o modelo t-student con (n-1) grados de libertad.


Ejemplo
La EPN ha establecido que los alumnos deben destinar al
menos 10 horas semanales al estudio cada semana. Para
verificar si se está cumpliendo con este requerimiento se tomó
una muestra aleatoria de estudiantes de econometría.

Planteamos la prueba de hipótesis:


Ho: los alumnos estudian 10 horas
H1: los alumnos no estudian 10 horas
■ promedio horas estudio 10.7
■ desviación estándar 1.22
■ muestra 20
■ grados libertad 20-1 = 19
■ parámetro establecido 10
■ estadístico t 2,66
■ significancia 0,015
Considerando un nivel de confianza del 95%
(región crítica de 5%), y que p = 0,015, tenemos
evidencia muestral para rechazar la hipótesis
nula (p < 0,05). Es decir, los estudiantes no
están estudiando en promedio 10 horas por
semana.

También podría gustarte