Inferencia

Fundamentos de inferencia estadística en modelos
condicionales
Dr. Ricardo Bórquez
Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 1 / 22

Espacio muestral, eventos y función de probabilidad
Sea Ω un conjunto arbitrario, al que llamaremos espacio muestral y sea E

una familia que contiene eventos (i.e. subconjuntos) de Ω.
Al par (Ω, E ) se le denomina espacio medible.
Los eventos se pueden medir mediante funciones llamadas medidas.
Por ejemplo, la función ] : E → N ∪ {0} es una medida que contabiliza el
número de elementos de un evento del conjunto Ω.
Otras medidas importantes son las denominadas funciones de probabilidad.









Sea P : E → [0, 1]. P es una función de probabilidad si

1 P(Ω) = 1
2 P(E1 ) ≤ P(E2 ) si y sólo si E1 ⊆ E2 para todos los eventos E1 , E2 ∈ E
∞
3 P(∪∞
i=1 Ei ) = ∑i=1 P(Ei ) si E1 , E2 , ... son eventos disjuntos.
Ei , Ej ∈ E se dicen disjuntos si Ei ∩ Ej = Ø, esto es, si ellos no tienen
elementos en común.
Una función de probabilidad asigna el valor máximo de 1 al espacio
muestral y el valor mínimo de 0 a su complemento Ø (el conjunto vacío).
Nota: P(Ej ) = 0 no implica que Ej = Ø.
A la tripleta (Ω, E , P) se le denomina espacio de probabilidad.


1 P(Ω) = 1
∞
3 P(∪∞


1 P(Ω) = 1
∞
3 P(∪∞

Variables aleatorias, función de distribución
Considere el espacio de probabilidad (Ω, E , P), el cual mantendremos fijo.
Sea X : Ω → R.
La función X es una variable aleatoria si para cada valor a ∈ R se tiene que
{X ≤ a} ∈ E
y por lo tanto, a ese conjunto se le puede asignar una medida mediante la
función de probabilidad P. Para calcularla, el siguiente resultado es útil.
Si X es una variable aleatoria, entonces existe una función FX : R → [0, 1],
llamada función de distribución de X tal que
P(X ≤ a) = FX (a) para todo a ∈ R,

donde R = R ∪ {−∞, +∞}.
Para especificar la función de distribución de X , usamos la notación
X ∼ FX .

Sea X : Ω → R.
{X ≤ a} ∈ E

donde R = R ∪ {−∞, +∞}.
X ∼ FX .

Sea X : Ω → R.
{X ≤ a} ∈ E

donde R = R ∪ {−∞, +∞}.
X ∼ FX .

Sea X : Ω → R.
{X ≤ a} ∈ E

donde R = R ∪ {−∞, +∞}.
X ∼ FX .

Sea X : Ω → R.
{X ≤ a} ∈ E

donde R = R ∪ {−∞, +∞}.
X ∼ FX .

Sea X : Ω → R.
{X ≤ a} ∈ E

donde R = R ∪ {−∞, +∞}.
X ∼ FX .

Sea X : Ω → R.
{X ≤ a} ∈ E

donde R = R ∪ {−∞, +∞}.
X ∼ FX .

Algunas propiedades de la función de distribución:

FX (−∞) = 0
FX (∞) = 1
P(a < X ≤ b) = FX (b) − FX (a) para todo a, b ∈ R
Si F es una función de distribución entonces existe una variable aleatoria,

en algún espacio de probabilidad, tal que F es su función de distribución.
La función FX (resp. X ) se dice discreta si existen p1 , p2 , ... ∈ R tales que
FX (a) = ∑ pi
xi ≤a
donde pi = P(X = xi ) y ∑∞i=1 pi = 1.

La función pi es la función de densidad de la variable aleatoria discreta X .


FX (−∞) = 0
FX (∞) = 1

FX (a) = ∑ pi
xi ≤a



FX (−∞) = 0
FX (∞) = 1

FX (a) = ∑ pi
xi ≤a



FX (−∞) = 0
FX (∞) = 1

FX (a) = ∑ pi
xi ≤a


La función FX (resp. X ) se dice continua si existe una función g : R → R+

tal que Z a
FX (a) = g(x )dx .
−∞
La función g es la función de densidad de la variable aleatoria continua X .
Note que en el caso continuo,
Z a
P(X = a) = g(x )dx = 0 para todo a ∈ R.
a
Se llama soporte de una variable aleatoria X , al subconjunto S ⊆ R más

pequeño tal que P(X ∈ S) = 1. Soporte es otro nombre para imagen de X .
Las variables aleatorias discretas (resp. continuas) se caracterizan por
tener un soporte contable/enumerable (resp. no-contable/no-enumerable).
Una variable aleatoria se dice mixta si su soporte tiene una parte contable.


tal que Z a
FX (a) = g(x )dx .
−∞
Z a
a



tal que Z a
FX (a) = g(x )dx .
−∞
Z a
a



tal que Z a
FX (a) = g(x )dx .
−∞
Z a
a



tal que Z a
FX (a) = g(x )dx .
−∞
Z a
a


Variable aleatoria normal
Sean µ ∈ R y σ 2 > 0.
La función F : R → [0, 1] definida por
exp(−(x − µ)2 /2σ 2 )

Z a
F (a) = √ dx
−∞ σ 2π
corresponde a la función de distribución normal de parámetros (µ, σ 2 ).
La función de densidad normal es
exp(−(x − µ)2 /2σ 2 )
g(x ) = √ .
σ 2π
Note que EX = µ (µ es la media) y E(X − µ)2 = σ 2 (σ 2 es la varianza).

Si X es una variable aleatoria normal de parámetros (µ, σ 2 ) la denotamos
por X ∼ N(µ, σ 2 ).
A cualquier variable aleatoria Z ∼ N(0, 1) la llamamos normal estándar.

Sean µ ∈ R y σ 2 > 0.
exp(−(x − µ)2 /2σ 2 )

Z a
F (a) = √ dx
−∞ σ 2π
exp(−(x − µ)2 /2σ 2 )
g(x ) = √ .
σ 2π

por X ∼ N(µ, σ 2 ).

Sean µ ∈ R y σ 2 > 0.
exp(−(x − µ)2 /2σ 2 )

Z a
F (a) = √ dx
−∞ σ 2π
exp(−(x − µ)2 /2σ 2 )
g(x ) = √ .
σ 2π

por X ∼ N(µ, σ 2 ).

Sean µ ∈ R y σ 2 > 0.
exp(−(x − µ)2 /2σ 2 )

Z a
F (a) = √ dx
−∞ σ 2π
exp(−(x − µ)2 /2σ 2 )
g(x ) = √ .
σ 2π

por X ∼ N(µ, σ 2 ).

Álgebra de variables aleatorias
Sean X , X1 , X2 , ..., Xn variables aleatorias todas definidas en el mismo

espacio de probabilidad (Ω, E , P). Las siguientes son variables aleatorias:
1 X1 + X2 + ... + Xn (suma): X1 (ω) + X2 (ω) + ... + Xn (ω) ∀ω ∈ Ω
2 aX (producto por escalar): aX (ω) ∀ω ∈ Ω y ∀a ∈ R
3 X1 X2 (producto de variables aleatorias): X1 (ω)X2 (ω)
4 X1 /X2 (división de variables aleatorias): X1 (ω)/X2 (ω) si
P(X2 = 0) = 0.


P(X2 = 0) = 0.


P(X2 = 0) = 0.


P(X2 = 0) = 0.


P(X2 = 0) = 0.

Algunas propiedades de las variables aleatorias
1 E(aX ) = aEX para todo a ∈ R

2 E(a1 X1 + ... + an Xn ) = a1 EX1 + ... + an EXn para variables aleatorias
X1 , ..., Xn y a1 , ..., an ∈ R
3 V (aX ) = a2 V (X ) para todo a ∈ R
4 V (X ) = EX 2 − (EX )2
5 V (aX + bY ) = a2 V (X ) + b 2 V (Y ) + 2abC (X , Y ) donde a, b, ∈ R y
C (X , Y ) = E [(X − EX )(Y − EY )] es la covarianza entre X e Y
6 C (X , Y ) = 0 si X e Y son independientes (definición más abajo)
7 V (a1 X1 + ... + an Xn ) = a12 V (X1 ) + ... + an2 V (Xn ) si X1 , X2 , ..., Xn son
independientes y a1 , ..., an ∈ R


X1 , ..., Xn y a1 , ..., an ∈ R
4 V (X ) = EX 2 − (EX )2


X1 , ..., Xn y a1 , ..., an ∈ R
4 V (X ) = EX 2 − (EX )2


X1 , ..., Xn y a1 , ..., an ∈ R
4 V (X ) = EX 2 − (EX )2


X1 , ..., Xn y a1 , ..., an ∈ R
4 V (X ) = EX 2 − (EX )2


X1 , ..., Xn y a1 , ..., an ∈ R
4 V (X ) = EX 2 − (EX )2


X1 , ..., Xn y a1 , ..., an ∈ R
4 V (X ) = EX 2 − (EX )2

Algunas propiedades:
1 Si X ∼ N(µ, σ 2 ) entonces
X −µ 2
σ ∼ N(0, 1) para todo µ ∈ R y σ > 0
2 Si Z ∼ N(0, 1) entonces a + bZ ∼ N(a, b 2 ) para todo a, b ∈ R
3 Si Z ∼ N(0, 1) entonces Z 2 ∼ χ 2 (distribuye chi-cuadrado con 1 grado

1
de libertad)
4 Si X e Y son variables aleatorias normales, ρ
X ,Y = 0 si y sólo si ellas
son independientes, donde
E [(X − EX )(Y − EY )]
ρX ,Y = p
Var (X )Var (Y )
es el coeficiente de correlación entre X y Y
5 Sean Xi ∼ N(µi , σi2 ) con i = 1, 2, ..., n todas independientes y sean
a1 , a2 , ..., an ∈ R. Entonces,
n
∑ ai Xi ∼ N(a1 µ1 + ... + an µn , a12 V (X1 ) + ... + an2 V (Xn ))
i=1

X −µ 2

1
de libertad)
E [(X − EX )(Y − EY )]
ρX ,Y = p
Var (X )Var (Y )
n
i=1

X −µ 2

1
de libertad)
E [(X − EX )(Y − EY )]
ρX ,Y = p
Var (X )Var (Y )
n
i=1

X −µ 2

1
de libertad)
E [(X − EX )(Y − EY )]
ρX ,Y = p
Var (X )Var (Y )
n
i=1

X −µ 2

1
de libertad)
E [(X − EX )(Y − EY )]
ρX ,Y = p
Var (X )Var (Y )
n
i=1

Vectores aleatorios
Sea X : Ω → Rn una función que asigna a cada elemento del espacio

muestral Ω un vector a = (a1 , a2 , ..., an )0 con ai ∈ R para i = 1, ..., n.
X es un vector aleatorio si {X ≤ a} ∈ E , i.e. es un evento ∀a ∈ Rn y por lo
tanto se le puede asignar una medida de probabilidad con la función P.
En tal caso existe la función de distribución de X, FX : Rn → [0, 1], tal que
P(X ≤ a) = FX (a)
para todo a = (a1 , a2 , ..., an )0 ∈ Rn .

En particular, si X = (X1 , X2 , ..., Xn )0 donde cada Xi es variable aleatoria
P(X ≤ a) = P(X1 ≤ a1 , X2 ≤ a2 , ..., Xn ≤ an )

= P({X1 ≤ a1 } ∩ {X2 ≤ a2 } ∩ ... ∩ {Xn ≤ an })

Vectores aleatorios

P(X ≤ a) = FX (a)

P(X ≤ a) = P(X1 ≤ a1 , X2 ≤ a2 , ..., Xn ≤ an )

= P({X1 ≤ a1 } ∩ {X2 ≤ a2 } ∩ ... ∩ {Xn ≤ an })

Vectores aleatorios

P(X ≤ a) = FX (a)

P(X ≤ a) = P(X1 ≤ a1 , X2 ≤ a2 , ..., Xn ≤ an )

= P({X1 ≤ a1 } ∩ {X2 ≤ a2 } ∩ ... ∩ {Xn ≤ an })

Vectores aleatorios

P(X ≤ a) = FX (a)

P(X ≤ a) = P(X1 ≤ a1 , X2 ≤ a2 , ..., Xn ≤ an )

= P({X1 ≤ a1 } ∩ {X2 ≤ a2 } ∩ ... ∩ {Xn ≤ an })

Vectores aleatorios
Por ejemplo, el vector aleatorio X = (X1 , X2 , ..., Xn )0 tiene distribución

normal si su función de densidad es
1 1 0 −1 (z−µ)
fX (z) = n 1 e − 2 (z−µ) Σ ,
(2π) |Σ|
2 2
donde z ∈ Rn . Los parámetros de la función de densidad son µ ∈ Rn y Σ

que es una matriz simétrica, definida positiva (i.e. z 0 Σz > 0 ∀z ∈ Rn ).
En particular,
µ = (EX1 , ..., EXn )0
Σ = E[(X − µ)(X − µ)0 ].

Usaremos la notación X ∼ N(µ, Σ). En este caso, las variables aleatorias
X1 , X2 , ..., Xn son independientes si y sólo si Σ es una matriz diagonal.

Vectores aleatorios

1 1 0 −1 (z−µ)
fX (z) = n 1 e − 2 (z−µ) Σ ,
(2π) |Σ|
2 2

En particular,
µ = (EX1 , ..., EXn )0
Σ = E[(X − µ)(X − µ)0 ].


Vectores aleatorios

1 1 0 −1 (z−µ)
fX (z) = n 1 e − 2 (z−µ) Σ ,
(2π) |Σ|
2 2

En particular,
µ = (EX1 , ..., EXn )0
Σ = E[(X − µ)(X − µ)0 ].


Vectores aleatorios
Más en general, la media de un vector aleatorio X = (X1 , ..., Xn )0 es
EX = (EX1 , ..., EXn )0
y su varianza es
V (X) = E[(X − EX)(X − EX)0 ].
Si X1 , X2 , ... son variables aleatorias continuas, y fX (x1 , ..., xn ) es la función
de densidad de X, su función de distribución evaluada en
a = (a1 , a2 , ..., an )0 ∈ Rn es
Z a1 Z a2 Z an
FX (a) = ... fX (x1 , ..., xn )dxn ...dx2 dx1 .
−∞ −∞ −∞
El siguiente resultado puede ser útil. Defina Y = a1 X1 + ... + an Xn = X0 a

con a = (a1 , ..., an )0 ∈ Rn notando que Y es una variable aleatoria. Luego,
EY = (EX)0 a y además V (Y ) = a0 V (X)a.

Vectores aleatorios
EX = (EX1 , ..., EXn )0
y su varianza es
V (X) = E[(X − EX)(X − EX)0 ].
a = (a1 , a2 , ..., an )0 ∈ Rn es
Z a 1 Z a2 Z an
−∞ −∞ −∞


Vectores aleatorios
EX = (EX1 , ..., EXn )0
y su varianza es
V (X) = E[(X − EX)(X − EX)0 ].
a = (a1 , a2 , ..., an )0 ∈ Rn es
Z a 1 Z a2 Z an
−∞ −∞ −∞


Vectores aleatorios
La varianza de X = (X1 , X2 , ..., Xn )0 también se llama matriz de

varianzas-covarianzas ya que por su definición tiene la siguiente estructura:
 
V (X1 ) C (X1 , X2 ) · · · C (X1 , Xn )
 C (X2 , X1 )
 V (X2 ) · · · C (X2 , Xn ) 

 .. .. . . .. 
 . . . . 
C (Xn , X1 ) C (Xn , X2 ) · · · V (Xn )
donde la covarianza entre las variables aleatorias Xi y Xj está dada por
C (Xi , Xj ) = E[(Xi − EXi )(Xj − EXj )]
y existe si E|Xi |2 < ∞ y E|Xj |2 < ∞ para i 6= j.

Observe además que V (Xi ) = C (Xi , Xi ) y existe si E|Xi |2 < ∞.

Vectores aleatorios
La varianza de X = (X1 , X2 , ..., Xn )0 también se llama matriz de

varianzas-covarianzas ya que por su definición tiene la siguiente estructura:
 
V (X1 ) C (X1 , X2 ) · · · C (X1 , Xn )
 C (X2 , X1 )
 V (X2 ) · · · C (X2 , Xn ) 

 .. .. . . .. 
 . . . . 
C (Xn , X1 ) C (Xn , X2 ) · · · V (Xn )
donde la covarianza entre las variables aleatorias Xi y Xj está dada por
C (Xi , Xj ) = E[(Xi − EXi )(Xj − EXj )]
y existe si E|Xi |2 < ∞ y E|Xj |2 < ∞ para i 6= j.

Observe además que V (Xi ) = C (Xi , Xi ) y existe si E|Xi |2 < ∞.

Independencia
Sea X ≡ (X1 , X2 , ..., Xn )0 un vector aleatorio y FX su función de
distribución.
Definición: Las variables aleatorias X1 , X2 , ..., Xn se dicen independientes si
FX (a1 , a2 , ..., an ) = FX1 (a1 )FX2 (a2 ) · · · FXn (an ),
donde FXi (ai ) es la función de distribución de Xi para i = 1, 2, ..., n.

Algunas propiedades. Sean X1 , X2 , ..., Xn v.a. aleatorias independientes.
1 E(X1 X2 · · · Xn ) = EX1 EX2 · · · EXn
2 Sean hi : R → R para i = 1, 2, ..., n, entonces h1 (X1 ), h2 (X2 ), ..., hn (Xn )
son independientes
3 Sea f la densidad del vector aleatorio (X1 , X2 , ..., Xn )0 y sea fXi la
densidad de Xi para i = 1, 2, ..., n. Entonces,
f (x1 , ..., xn ) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn ).

Independencia
distribución.

1 E(X1 X2 · · · Xn ) = EX1 EX2 · · · EXn
son independientes

Independencia
distribución.

1 E(X1 X2 · · · Xn ) = EX1 EX2 · · · EXn
son independientes

Independencia
distribución.

1 E(X1 X2 · · · Xn ) = EX1 EX2 · · · EXn
son independientes

Independencia
distribución.

1 E(X1 X2 · · · Xn ) = EX1 EX2 · · · EXn
son independientes

Función de densidad condicional de un vector aleatorio
Sean X e Y dos variables aleatorias con funciones de densidad fX y fY .
Se define la función de densidad de Y condicional en X (ω) = x así:
f (y , x )
fY |x = .
fX (x )
donde f (y , x ) es la densidad del vector aleatorio (Y , X ). (Observe que si

las variables X e Y son independientes entonces fY |x = fX (xfX)f(xY)(y ) = fY .)
Las siguientes propiedades son útiles:
EY = E(E(Y |x ))
V (Y ) = E(V (Y |x )) + V (E(Y |x ))
donde E(Y |x ) es la media (o esperanza) de Y condicional en el evento
X = x en tanto V (Y |x ) es la varianza de Y condicional en X (ω) = x .
Note que E(Y |x ) y V (Y |x ) son realizaciones de una variable aleatoria.

f (y , x )
fY |x = .
fX (x )

EY = E(E(Y |x ))
V (Y ) = E(V (Y |x )) + V (E(Y |x ))

f (y , x )
fY |x = .
fX (x )

EY = E(E(Y |x ))
V (Y ) = E(V (Y |x )) + V (E(Y |x ))

f (y , x )
fY |x = .
fX (x )

EY = E(E(Y |x ))
V (Y ) = E(V (Y |x )) + V (E(Y |x ))

La definición de densidad condicional se extiende al caso de que Y y X

sean vectores aleatorios. Así, sea X = (X1 , X2 , ..., Xn )0 un vector aleatorio.
La función de densidad de Y condicional al evento
X1 = x1 , X2 = x2 , ..., Xn = xn
se define como sigue:
f (y , x1 , ..., xn )
fY |x1 ,...,xn = .
f (x1 , ..., xn )
Usaremos la notación Y |x ∼ fY |x que enfatiza la propiedad de que la

densidad condicional de Y cambia con la observación x = (x1 , ..., xn ).


X1 = x1 , X2 = x2 , ..., Xn = xn
f (y , x1 , ..., xn )
fY |x1 ,...,xn = .
f (x1 , ..., xn )



X1 = x1 , X2 = x2 , ..., Xn = xn
f (y , x1 , ..., xn )
fY |x1 ,...,xn = .
f (x1 , ..., xn )



X1 = x1 , X2 = x2 , ..., Xn = xn
f (y , x1 , ..., xn )
fY |x1 ,...,xn = .
f (x1 , ..., xn )


Identificación de parámetros, modelo estadístico
Sea f una función de densidad en una familia indexada por el parámetro

θ ∈ Θ donde Θ es en general un subconjunto del espacio paramétrico.
Luego,
f ∈ {f θ : θ ∈ Θ}.
El parámetro θ se dice identificado si
0
θ 6= θ 0 ⇒ f θ 6= f θ .
Por ejemplo, en la familia normal el parámetro (µ, Σ) es identificado y más

en general, una familia de funciones de densidad indexada por un
parámetro que está identificado se conoce como modelo estadístico.
(Observe que este concepto aplica a familias de densidades condicionales.)
Los modelos estadísticos son la base para realizar inferencia estadística
i.e. estimar parámetros, realizar pruebas de hipótesis y generar pronósticos.


Luego,
f ∈ {f θ : θ ∈ Θ}.
0
θ 6= θ 0 ⇒ f θ 6= f θ .



Luego,
f ∈ {f θ : θ ∈ Θ}.
0
θ 6= θ 0 ⇒ f θ 6= f θ .



Luego,
f ∈ {f θ : θ ∈ Θ}.
0
θ 6= θ 0 ⇒ f θ 6= f θ .



Luego,
f ∈ {f θ : θ ∈ Θ}.
0
θ 6= θ 0 ⇒ f θ 6= f θ .


Función de verosimilitud incondicional
La herramienta fundamental de inferencia es la función de verosimilitud.

Sea X = (X1 , X2 , ..., Xn ) un vector aleatorio normal con función de
densidad fXθ (x ) indexada por θ ∈ Θ donde x está en el soporte de X y θ es
un parámetro identificado (i.e. {f θ : θ ∈ Θ} es un modelo estadístico).
Suponga que observa x0 ∈ Rn . Se define la función de verosimilitud de X:
L(θ |x0 ) = fXθ (x0 ).
La estimación de máxima verosimilitud para θ se define como sigue:
θ ∗ (x0 ) = argmaxL(θ |x0 ).

θ ∈Θ
Es claro que (si existe) la estimación θ ∗ (x0 ) es la realización de un vector

aleatorio, θ ∗ , denominado el estimador de máxima verosimilitud para θ .


L(θ |x0 ) = fXθ (x0 ).
θ ∗ (x0 ) = argmaxL(θ |x0 ).

θ ∈Θ



L(θ |x0 ) = fXθ (x0 ).
θ ∗ (x0 ) = argmaxL(θ |x0 ).

θ ∈Θ



L(θ |x0 ) = fXθ (x0 ).
θ ∗ (x0 ) = argmaxL(θ |x0 ).

θ ∈Θ



L(θ |x0 ) = fXθ (x0 ).
θ ∗ (x0 ) = argmaxL(θ |x0 ).

θ ∈Θ



L(θ |x0 ) = fXθ (x0 ).
θ ∗ (x0 ) = argmaxL(θ |x0 ).

θ ∈Θ



L(θ |x0 ) = fXθ (x0 ).
θ ∗ (x0 ) = argmaxL(θ |x0 ).

θ ∈Θ


Por ejemplo, en el caso normal
1 1 0 −1 (x −µ)
L(µ, Σ|x0 ) = n 1 e − 2 (x0 −µ) Σ 0
(2π) |Σ|2 2
Utilizando la descomposición Σ−1 = C 0 C la función de verosimilitud queda

1 1 2
L(µ, Σ|x0 ) = n 1 e − 2 kuk
(2π) |Σ|2 2
donde u = C (x0 − µ) ∈ Rn .
L(µ, Σ|x0 ) se hace máximo en los valores de µ y C que minimizan kuk2 .
Así planteado, el problema es demasiado general para inferencia ya que la
búsqueda de la estimación θ (x0 ) = (µ, C ) es sobre conjunto muy grande.
Entonces es fundamental escoger adecuadamente el conjunto Θ de valores
posibles para θ (x0 ), lo que hacemos al especificar el modelo estadístico.

1 1 0 −1 (x −µ)
L(µ, Σ|x0 ) = n 1 e − 2 (x0 −µ) Σ 0
(2π) |Σ|2 2

1 1 2
L(µ, Σ|x0 ) = n 1 e − 2 kuk
(2π) |Σ|2 2

1 1 0 −1 (x −µ)
L(µ, Σ|x0 ) = n 1 e − 2 (x0 −µ) Σ 0
(2π) |Σ|2 2

1 1 2
L(µ, Σ|x0 ) = n 1 e − 2 kuk
(2π) |Σ|2 2

1 1 0 −1 (x −µ)
L(µ, Σ|x0 ) = n 1 e − 2 (x0 −µ) Σ 0
(2π) |Σ|2 2

1 1 2
L(µ, Σ|x0 ) = n 1 e − 2 kuk
(2π) |Σ|2 2

1 1 0 −1 (x −µ)
L(µ, Σ|x0 ) = n 1 e − 2 (x0 −µ) Σ 0
(2π) |Σ|2 2

1 1 2
L(µ, Σ|x0 ) = n 1 e − 2 kuk
(2π) |Σ|2 2

Sea 1n = (1, 1, ..., 1)0 ∈ Rn , α ∈ R.

Siguiendo con el ejemplo normal defina µ = α1n y Σ = In donde In es la
matriz identidad n × n, de tal forma que en este caso el parámetro es α.
Nos interesa encontrar la estimación α(x0 ) que maximiza la función de
verosimilitud normal
1 − 12 kx0 −α1n k2
L(α|x0 ) = n e .
(2π) 2
Notemos que la función L(α|x0 ) se hace máxima en el valor de α que

minimiza la norma kx0 − α1n k, luego, por teorema de proyección se tiene
α(x0 ) = (10n 1n )−1 10n x0 .

Sea 1n = (1, 1, ..., 1)0 ∈ Rn , α ∈ R.

1 − 12 kx0 −α1n k2
L(α|x0 ) = n e .
(2π) 2

α(x0 ) = (10n 1n )−1 10n x0 .

Sea 1n = (1, 1, ..., 1)0 ∈ Rn , α ∈ R.

1 − 12 kx0 −α1n k2
L(α|x0 ) = n e .
(2π) 2

α(x0 ) = (10n 1n )−1 10n x0 .

Sea 1n = (1, 1, ..., 1)0 ∈ Rn , α ∈ R.

1 − 12 kx0 −α1n k2
L(α|x0 ) = n e .
(2π) 2

α(x0 ) = (10n 1n )−1 10n x0 .

Sea 1n = (1, 1, ..., 1)0 ∈ Rn , α ∈ R.

1 − 12 kx0 −α1n k2
L(α|x0 ) = n e .
(2π) 2

α(x0 ) = (10n 1n )−1 10n x0 .

Inferencia

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Inferencia

Cargado por

Copyright:

Formatos disponibles

Fundamentos de inferencia estadística en modelos

Dr. Ricardo Bórquez

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 1 / 22

Sea Ω un conjunto arbitrario, al que llamaremos espacio muestral y sea E

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 2 / 22

Sea Ω un conjunto arbitrario, al que llamaremos espacio muestral y sea E

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 2 / 22

Sea Ω un conjunto arbitrario, al que llamaremos espacio muestral y sea E

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 2 / 22

Sea Ω un conjunto arbitrario, al que llamaremos espacio muestral y sea E

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 2 / 22

Sea Ω un conjunto arbitrario, al que llamaremos espacio muestral y sea E

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 2 / 22

Sea P : E → [0, 1]. P es una función de probabilidad si

A la tripleta (Ω, E , P) se le denomina espacio de probabilidad.

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 3 / 22

Sea P : E → [0, 1]. P es una función de probabilidad si

A la tripleta (Ω, E , P) se le denomina espacio de probabilidad.

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 3 / 22

Sea P : E → [0, 1]. P es una función de probabilidad si

A la tripleta (Ω, E , P) se le denomina espacio de probabilidad.

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 3 / 22

P(X ≤ a) = FX (a) para todo a ∈ R,

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 4 / 22

P(X ≤ a) = FX (a) para todo a ∈ R,

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 4 / 22

P(X ≤ a) = FX (a) para todo a ∈ R,

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 4 / 22

P(X ≤ a) = FX (a) para todo a ∈ R,

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 4 / 22

P(X ≤ a) = FX (a) para todo a ∈ R,

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 4 / 22

P(X ≤ a) = FX (a) para todo a ∈ R,

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 4 / 22

P(X ≤ a) = FX (a) para todo a ∈ R,

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 4 / 22

Algunas propiedades de la función de distribución:

Si F es una función de distribución entonces existe una variable aleatoria,

donde pi = P(X = xi ) y ∑∞i=1 pi = 1.

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 5 / 22

Algunas propiedades de la función de distribución:

Si F es una función de distribución entonces existe una variable aleatoria,

donde pi = P(X = xi ) y ∑∞i=1 pi = 1.

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 5 / 22

Algunas propiedades de la función de distribución:

Si F es una función de distribución entonces existe una variable aleatoria,

donde pi = P(X = xi ) y ∑∞i=1 pi = 1.

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 5 / 22

Algunas propiedades de la función de distribución:

Si F es una función de distribución entonces existe una variable aleatoria,

donde pi = P(X = xi ) y ∑∞i=1 pi = 1.

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 5 / 22

La función FX (resp. X ) se dice continua si existe una función g : R → R+

Se llama soporte de una variable aleatoria X , al subconjunto S ⊆ R más

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 6 / 22

La función FX (resp. X ) se dice continua si existe una función g : R → R+

Se llama soporte de una variable aleatoria X , al subconjunto S ⊆ R más

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 6 / 22

La función FX (resp. X ) se dice continua si existe una función g : R → R+

Se llama soporte de una variable aleatoria X , al subconjunto S ⊆ R más

Dr. Ricardo Bórquez Fundamentos de inferencia estadística en modelos condicionales 6 / 22

La función FX (resp. X ) se dice continua si existe una función g : R → R+

Se llama soporte de una variable aleatoria X , al subconjunto S ⊆ R más