Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PyEC132011 PDF
PyEC132011 PDF
PyEC132011 PDF
El objetivo de la estimación puntual es usar una muestra para obtener números que, en
algún sentido, sean los que mejor representan a los verdaderos valores de los parámetros
de interés.
Del mismo modo, antes de obtener una muestra, cualquier función de ella será una v.a.,
~
por ejemplo: X , X , S 2 , max ( X 1 ,..., X n ), etc. Una vez obtenida la muestra los valores
calculados serán denotados x , ~
x , s 2 , max( x1 ,..., x n ), etc.
Ejemplo: Con el fin de estudiar si un dado es o no equilibrado, se arroja el dado 100 veces
en forma independiente, obteniéndose 21 ases. ¿Qué valor podría utilizarse, en base a
esa información, como estimación de la probabilidad de as? Parece razonable utilizar la
frecuencia relativa de ases.
21
En este caso, si llamamos p a la probabilidad que queremos estimar, pˆ = = 0.21
100
¿Cómo obtener estimadores para un problema dado? Estudiaremos dos métodos que
proporcionan estimadores puntuales: el método de momentos y el método de máxima
verosimilitud.
161
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Definición: Sea X una v.a. con función de probabilidad puntual p X (x) en el caso discreto
o función de densidad f X (x ) en el caso continuo. Se denomina momento de orden k
(k ∈ N) o momento poblacional de orden k a E(Xk), es decir
⎧ ∑ x k p X ( x) en el caso discreto
⎪⎪ x
E( X k ) = ⎨ ∞
⎪ ∫ x f X ( x) dx
k
en el caso continuo
⎪⎩- ∞
n k
∑ Xi
i =1
n
Definición: Sea X 1 , X 2 ,..., X n una m.a. de una distribución con función de probabilidad
puntual o función de densidad que depende de m parámetros θ 1 , θ 2 ,...., θ m . Los
estimadores de momentos de θ 1 , θ 2 ,...., θ m son los valores θˆ1 , θˆ2 ,...., θˆm que se obtienen
igualando m momentos poblacionales con los correspondientes momentos muestrales. En
general, se obtienen resolviendo el siguiente sistema de ecuaciones
∑X i
k
i =1
n
=E Xk ( ) k = 1,2,..., m
162
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
n n
∑ Xi ∑X i
n
= E(X ) ⇒
1 1
i =1 i =1
= ⇒ λˆ = ⇒ λˆ =
n n λ n
X
∑X i =1
i
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribución Γ(α, λ). Como hay dos parámetros a
estimar, planteamos un sistema de ecuaciones basadas en el primer y en el segundo
momento.
α α
Usando que si X ~ Γ(α,λ), E( X ) = y V (X ) = y la relación:
λ λ2
V ( X ) = E ( X 2 ) − (E ( X ) ) ,
2
⎧ n ⎧ n
⎪ ∑ Xi ⎪ ∑ Xi α
⎪ i =1 = E( X ) ⎪ i =1 =
⎪ n ⎪ n λ
⎨ n ⇒ ⎨ n
⎪ ∑ X i2 ⎪ ∑ X i2
α ⎛α ⎞
2
⎪ i =1 ⎪ i =1 = +
⎪⎩ n = E ( X )
2
⎪ n ⎜ ⎟
⎩ λ2 ⎝ λ ⎠
α
Reemplazando = X , en la segunda ecuación, se obtiene:
λ
n
∑X
i =1
i
2
X
= +X2
n λ
y, despejando λ :
X
∑X i
2
X
= i =1
−X2 ⇒ λˆ =
λ n n
∑X
i =1
i
2
−X2
n
163
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
X2
αˆ = n
∑X
i =1
i
2
−X2
n
3) Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(0,θ). Como hay un único parámetro
a estimar, planteamos una ecuación basada en el primer momento.
∑X i
θ
i =1
= E( X ) = ⇒ θˆ = 2 X
n 2
4) Veamos por último un ejemplo que nos muestra que no siempre podemos utilizar los
momentos en el orden natural. Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(-θ,θ).
Como hay un único parámetro a estimar, parece natural plantear una ecuación basada en
el primer momento. Sin embargo, si lo hacemos,
∑X
i =1
i
= E( X ) = 0
n
n n
∑ X i2 (2θ )2 = θ 2
3 ∑ X i2
i =1
= E( X 2 ) = ⇒ θˆ = i =1
n 12 3 n
Método de máxima verosimilitud: Este método fue introducido por Fisher en la década
de 1920. Se basa en la idea de hallar los valores de los parámetros que hacen que la
probabilidad de obtener una muestra dada sea máxima.
Ejemplo: Se realiza una encuesta de opinión a una m.a. de 20 personas. Se les formula
una única pregunta que será respondida por Si o por NO. Sean X 1 , X 2 ,..., X 20 las v.a.
correspondientes a la respuesta, tales que
164
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
⎧1 si la persona i responde SI
Xi = ⎨
⎩0 si la persona i responde NO
Observemos que las v.a. X i son independientes y cada una de ellas tiene distribución
Bi(1,p). Entonces, la función de probabilidad conjunta del vector ( X 1 , X 2 ,..., X 20 ) es
x 1− x x 1− x2 x 1− x20
p ( x1 , x 2 ,..., x 20 ) = p 1 (1 − p ) 1 p 2 (1 − p ) ... p 20 (1 − p )
13 7
p ( x1 , x 2 ,..., x 20 ) = p (1 − p )
La pregunta es: ¿qué valor de p hace que los valores muestrales obtenidos sean los más
probables?
Para ello, como esta función es derivable respecto de p, buscamos los posibles puntos
críticos, igualando a 0 la derivada primera.
∂g ( p) 13 7 13(1 − p) − 7 p 13 − 20 p 13
0= = − = = ⇔ 13-20 p = 0 ⇔ pˆ =
∂p p 1− p p(1 − p) p(1 − p) 20
∂ 2 g ( p) 13 7
=− − <0
∂p 2 p =13 / 20
p 2
(1 − p ) 2 p =13 / 20
165
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
La forma general de los EMV se obtiene reemplazando los valores observados xi por las
v.a. Xi.
n
n n −λ ∑ xi
f ( x1 , x 2 ,..., x n ) = ∏ f X i ( x i ) = ∏ λ e −λxi = λ n e i =1
i =1 i =1
Observemos que no incluimos los indicadores porque, dado que el rango de la v.a. no
depende del parámetro a estimar, podemos suponer que todas las observaciones son no
negativas.
n
ln L(λ ) = n ln(λ ) − λ ∑ xi
i =1
∂ ln L(λ ) n n
n 1
= − ∑ xi = 0 ⇔ λˆ = =
∂λ λ i =1 n
X
∑X
i =1
i
−
(xi − μ )2
n n
1
f ( x1 , x 2 ,..., x n ) = ∏ f X i ( xi ) = ∏ e 2σ 2
i =1 i =1 2π σ
166
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
1 n
⎛ 1 ⎞ 1 − 2 σ 2 i∑=1( xi − μ )
n 2
= ⎜⎜ ⎟⎟ e
⎝ 2π ⎠ σ
n
1 n
⎛ 1 ⎞ 1 − 2 σ 2 i∑=1( xi − μ )
n 2
L( μ , σ ) = ⎜⎜ ⎟⎟ e
⎝ 2π ⎠ σ
n
( )
n
1
ln L( μ , σ ) = − n ln 2π − n ln(σ ) −
2σ 2 ∑ (x
i =1
i − μ)2
⎧ ∂ ln L( μ , σ ) 1 n ⎧ n
⎪⎪ = 2 ∑ (xi − μ ) = 0 ⎪⎪ ∑ ( x i − μ ) = 0
∂μ σ i =1
⎨ ∂ ln L( μ , σ ) ⇔ ⎨
i =1
n
n 1 n ⎪ − nσ 2 + ∑ ( xi − μ )2 = 0
⎪ = − + 3 ∑ (xi − μ ) = 0
2
⎩⎪ ∂σ σ σ i =1 ⎪⎩ i =1
⎧ n
⎪ ∑ xi
⎪μ = i =1
⎪ n
⇔ ⎨ n
⎪ ∑ ( x i − μ )2
⎪
⎪σ =
i =1
⎩ n
∑ (X − X)
n
2
i
μˆ = X σˆ = i =1
167
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
n n n
1 1
f ( x1 , x 2 ,..., x n ) = ∏ f ( x i ) = ∏ I ( 0,θ ) ( x i ) = ∏ I (0,θ ) ( x )
θ
i
i =1 i =1 θn i =1
y la función de verosimilitud es
n
1
L(θ ) =
θn
∏ I (0,θ ) ( x )
i =1
i
⎧1 ⎧1
⎪ si 0 < x i < θ ∀ i
⎪ si max( x i ) < θ
L(θ ) = ⎨θ n = ⎨θ n 1≤ i ≤ n
⎪⎩0 en caso contrario ⎪⎩0 en caso contrario
⎧1
⎪ si θ > max( xi )
= ⎨θ n 1≤ i ≤ n
⎪0 si θ ≤ max( x i )
⎩ 1≤ i ≤ n
θˆ = max( X i )
1≤i≤ n
168
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∑ (X − X)
n
2
i
σ̂ = i =1
entonces el EMV de σ2 es
∑(X i − X )2
σ̂ 2 = i =1
En general, sean θˆ1 ,..., θˆm los EMV de θ 1 ,..., θ m y sea una función h : ℜ m → ℜ , ¿bajo
qué condiciones el EMV de h(θ 1 ,..., θ m ) es h(θˆ1 ,..., θˆm ) ? Esta propiedad, denominada
propiedad de invarianza de los EMV, se cumple si la función h puede ser completada a
una función inyectiva.
θˆ − θ
es el error de estimación y una estimación será más precisa cuanto menor sea este error.
Este error es también una v.a. dado que depende de la muestra obtenida. Para algunas
muestras será positivo, para otras negativo. Una propiedad deseable es que la esperanza
del error sea 0, es decir que “en promedio” el error obtenido al estimar a partir de
diferentes muestras sea cero.
Eθ (θˆ) = θ ∀θ
169
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Definición: Un estimador puntual θˆ del parámetro θ basado en una muestra X 1 ,..., X n ,es
asintóticamente insesgado si
Eθ (θˆ) ⎯n⎯
⎯→θ
→∞
∀θ
⎛X ⎞ E P ( X ) np
E P ( pˆ ) = E P ⎜ ⎟= = =p ∀p
⎝n ⎠ n n
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribución N(μ,σ2). Los EMV de μ y σ2 son
∑ (X − X)
n
2
i
μˆ = X σˆ 2 = i =1
⎛ n ⎞
⎜ ∑ (X i − X )
2
⎟
⎛ n ⎞
E 2 (σˆ 2 ) = E 2 ⎜ i =1
μ ,σ μ ,σ ⎜ n
⎟= 1E
⎟ n μ ,σ ⎝ ∑
2 ⎜ ( )
X i2 − 2 X i X + X 2 ⎟
i =1 ⎠
⎜ ⎟
⎝ ⎠
1 ⎛ n n
⎞ 1 ⎛ n ⎞
= E 2 ⎜ ∑ X i2 − 2 X ∑ X i + nX 2 ⎟ = E 2 ⎜ ∑ X i2 − 2nX 2 + nX 2 ⎟
n μ σ μ σ
,
⎝ i =1 i =1 ⎠ n ,
⎝ i =1 ⎠
170
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
1 ⎛ n ⎞ 1 ⎛ n ⎞ n
= E 2 ⎜ ∑ X i2 − nX 2 ⎟ = E 2 ⎜ ∑ X i2 ⎟ − E 2 ( X 2 ) = E 2 ( X 12 ) − E 2 ( X 2 )
n μ ,σ ⎝ i =1 ⎠ n μ ,σ ⎝ i =1 ⎠ μ ,σ n μ ,σ μ ,σ
=V [ μ ,σ 2
(
(X1) + E
μ ,σ 2
(X1) ) ]− [V
2
μ ,σ 2
(X ) + E ( μ ,σ 2
(X ) ) ]= σ
2 2
+μ − 2 σ2
n
− μ2 =
n −1 2
n
σ
∑ (X − X)
n
2
i
i =1
Ejercicio: Verificar que la varianza muestral S 2 = es un estimador
n −1
insesgado de la varianza poblacional cualquiera sea la distribución.
θ
Eθ (θˆ) = 2 Eθ ( X ) = 2 = θ ∀θ
2
Verificaremos que el EMV no lo es. Para ello, necesitamos obtener la densidad de la v.a.
U = max( X i ) .
1≤i≤ n
⎧ 0 si u ≤ 0
⎪⎪⎛ u ⎞ n
FU (u ) = (FX (u ) ) si 0 < u < θ
n
= ⎨⎜ ⎟
⎪⎝ θ ⎠
⎩⎪ 1 si u ≥ θ
entonces
n −1
⎛u⎞ 1
f U (u ) = n⎜ ⎟ I (0,θ ) (u ) .
⎝θ ⎠ θ
171
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
θ n −1 θ θ
⎛u⎞ n n u n +1 n
Eθ (max( X i ) ) = Eθ (U ) = ∫ u n⎜ ⎟
1
du = n ∫ u du = n
n
= θ
0 ⎝θ ⎠ θ θ 0 θ n +1 0 n +1
Cuando hay más de un estimador insesgado para un mismo parámetro, ¿cómo decidimos
cuál conviene usar? Por ejemplo, sea X 1 , X 2 ,..., X n una m.a. de una distribución N(μ,σ2).
Es inmediato verificar que los siguientes son todos estimadores insesgados de μ:
μˆ 1 = X
X1 + X 2
μˆ 2 =
2
μ3 = X1
ˆ
σ2
V
μ ,σ 2 (μ
ˆ1 ) =
n
σ2
V
μ ,σ 2 (μ
ˆ2 ) =
2
V ( μˆ 3 ) = σ 2
μ ,σ 2
A partir de este resultado deducimos que, si se tiene evidencia de que la m.a. proviene de
una distribución Normal, parece conveniente usar X como estimador de μ. Sin embargo,
si los datos no son Normales este estimador podría llegar a ser una pésima elección.
2
1 ⎛ x−μ ⎞
1 − ⎜⎜ ⎟
2 ⎝ σ ⎟⎠
a) N(μ,σ2) : f ( x) = e
2π σ
172
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
1
b) Cauchy de parámetro μ : f ( x) =
π (1 + ( x − μ ) 2 )
1
c) U(μ -1, μ +1) : f ( x) = I ( μ −1, μ +1) ( x)
2
~ max( X i ) + min ( X i )
μˆ 1 = X μˆ 2 = X μˆ 3 =
2
En el caso b), μ̂1 y μ̂ 3 son malos porque ambos son muy sensibles a la presencia de
observaciones atípicas y la distribución Cauchy produce una importante proporción de
ellas. Por lo tanto la mejor elección entre estos tres estimadores sería μ̂ 2 . También
podríamos utilizar una media podada.
σ θˆ = Vθ (θˆ)
σ2
σ X = Vμ ,σ 2 ( X ) =
n
173
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
∑ (X − X)
n
2
i
S 2
σˆ X = =X i =1
n n(n − 1)
ECM θ (θˆ) = Eθ ⎡ θˆ − θ ⎤
⎢⎣
2
⎥⎦
( )
Si el estimador θˆ es insesgado el error cuadrático medio es igual a la varianza del
estimador.
[ ] 2
Proposición: ECM θ (θˆ) = Vθ (θˆ) + b(θˆ) , siendo b(θˆ) = Eθ (θˆ) − θ el sesgo del estimador.
Dem:
⎢⎣
(2
⎥⎦
)⎢⎣
(
ECM θ (θˆ) = Eθ ⎡ θˆ − θ ⎤ = Eθ ⎡ θˆ − Eθ (θˆ) + Eθ (θˆ) − θ ⎤
2
⎥⎦
)
( ) (
= Eθ ⎡ θˆ − Eθ (θˆ) + Eθ (θˆ) − θ
⎢⎣
2
) 2
( )(
+ 2 θˆ − Eθ (θˆ) Eθ (θˆ) − θ ⎤
⎥⎦
)
( ) (
= Eθ ⎡ θˆ − Eθ (θˆ) ⎤ + Eθ ⎡ Eθ (θˆ) − θ ⎤ + 2 Eθ θˆ − Eθ (θˆ) Eθ (θˆ) − θ
⎢⎣
2
⎥⎦ ⎢⎣
2
⎥⎦
) [( )( )]
Usando que la esperanza de una v.a. es una constante y la esperanza de una constante
es igual a ésta, se obtiene
( ) ( )
ECM θ (θˆ) = Eθ ⎡ θˆ − Eθ (θˆ) ⎤ + Eθ (θˆ) − θ + 2 Eθ (θˆ) − θ Eθ (θˆ) − Eθ (θˆ)
⎢⎣
2
⎥ 14243
2
( )( )
3⎦
1442443
14 4
42444
Vθ (θˆ )
2
(b(θˆ ) ) 0
[ ] 2
y, por lo tanto, ECM θ (θˆ) = Vθ (θˆ) + b(θˆ) , como queríamos demostrar.
174
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Principio de estimación de menor error cuadrático medio: Dados dos o más estimadores
del parámetro θ, elegir el de menor ECM.
Definición: Sea X 1 , X 2 ,..., X n una m.a de una distribución que depende de un parámetro
θ y sea θˆn un estimador puntual de θ basado en esa muestra. Diremos que {θˆ } es
n
(
es decir, si ∀ ε > 0, P θˆn − θ > ε ⎯n⎯ )
⎯→ 0 .
→∞
desigualdad de Chebyshev,
(
P X − μ >ε ≤ ) V (X )
ε2
σ2
= 2 ⎯n⎯
nε
⎯→ 0
→∞
∀ε > 0
X1 + X 2
Ejercicio: Verificar que, en este ejemplo, μˆ = no es consistente de μ .
2
b) Vθ (θˆn ) ⎯n⎯⎯→ 0
→∞
175
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
σ2
V (X ) = . Por lo tanto, se satisfacen las dos condiciones de la Proposición.
n
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(0,θ). Hemos demostrado antes que
n
el EMV de θ , θˆ = max( X i ) es asintóticamente insesgado pues Eθ (θˆ) = θ . Para
1≤i ≤ n n +1
probar que es consistente, verificaremos que su varianza tiende a cero cuando el tamaño
de la muestra tiende a infinito. Pero
[ ]
2
2
⎡ n ⎤
Vθ (θˆ) = Eθ (θˆ 2 ) − Eθ (θˆ) = Eθ (θˆ 2 ) − ⎢ θ
⎣ n + 1 ⎥⎦
n −1
⎛u⎞ 1
f U (u ) = n⎜ ⎟ I ( 0,θ ) (u )
⎝θ ⎠ θ
θ n −1 θ θ
⎛u⎞ 1 n n u n+2 n
Eθ (U ) = ∫ u n⎜ ⎟
2 2
du = ∫u
n +1
du = n = θ 2.
0 ⎝θ ⎠ θ θn 0 θ n+2 0 n+2
Entonces,
⎛ n ⎞ 2 ⎛⎜ n ⎞ 2
2
n n2 n
Vθ (θˆ) = θ2 −⎜ ⎟ θ = − ⎟θ = θ 2 ⎯n⎯⎯→ 0
n+2 ⎝ n +1⎠ ⎜ n + 2 (n + 1)2 ⎟ n + n + 2 →∞
⎝ ⎠ ( 2)( 1)
En primer lugar recordemos que si X 1 , X 2 ,..., X n ,.... e Y1 , Y2 ,..., Yn ,... son sucesiones de
v.a. tales que X n ⎯
⎯→p
a e Yn ⎯
⎯→p
b , entonces:
a) X n ± Yn ⎯
⎯→p
a±b
b) X n Yn ⎯
⎯→p
ab
176
Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Ana M. Bianco y Elena J. Martínez 2004
Xn p a
c) ⎯
⎯→ si b ≠ 0
Yn b
d) g ( X n ) ⎯
⎯→p
g (a ) si g es una función continua en a .
e) si c n es una sucesión numérica tal que c n ⎯
⎯→ c , entonces c n X n ⎯
⎯→p
ca
∑X i
2
2
i =1
⎯
⎯→p
E (X 2
) =V ( X ) + [ E 2 ( X )] =σ 2 + μ2
n μ ,σ 2 μ ,σ 2 μ ,σ
n
Como además → 1 , se obtiene
n −1
⎛ n 2 ⎞
⎜∑ Xi ⎟
n ⎜ i =1 2⎟
SX =
2
−X ⎯ ⎯→
p
σ 2 + μ2 − μ2 =σ 2
n −1 ⎜ n ⎟
⎜ ⎟
⎝ ⎠
y por lo tanto la varianza muestral es un estimador consistente de σ 2 .
177