PyEC132011 PDF

Probabilidades y Estadística (Computación)
Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires

Ana M. Bianco y Elena J. Martínez 2004
Inferencia estadística - Estimación puntual
La estadística provee técnicas que permiten obtener conclusiones generales a partir de un

conjunto limitado – pero representativo – de datos. Cuando inferimos no tenemos
garantía de que la conclusión que obtenemos sea exactamente correcta. Sin embargo, la
estadística permite cuantificar el error asociado a la estimación.
La mayoría de las distribuciones de probabilidad dependen de cierto número de

parámetros. Por ejemplo: P (λ ), N ( μ , σ 2 ), Bi (n, p ), etc. Salvo que estos parámetros se
conozcan, deben estimarse a partir de los datos.
El objetivo de la estimación puntual es usar una muestra para obtener números que, en
algún sentido, sean los que mejor representan a los verdaderos valores de los parámetros
de interés.
Supongamos que se selecciona una muestra de tamaño n de una población. Antes de

obtener la muestra no sabemos cuál será el valor de cada observación. Así, la primera
observación puede ser considerada una v.a. X1, la segunda una v.a. X2, etc. Por lo tanto,
antes de obtener la muestra denotaremos X1, X2,...., Xn a las observaciones y, una vez
obtenida la muestra, denotaremos x1, x2,...., xn a los valores observados.
Del mismo modo, antes de obtener una muestra, cualquier función de ella será una v.a.,
~
por ejemplo: X , X , S 2 , max ( X 1 ,..., X n ), etc. Una vez obtenida la muestra los valores
calculados serán denotados x , ~
x , s 2 , max( x1 ,..., x n ), etc.
Definición: Un estimador puntual de un parámetro θ es un valor que puede ser

considerado representativo de θ y se indicará θˆ . Se obtiene a partir de alguna función de
la muestra.
Ejemplo: Con el fin de estudiar si un dado es o no equilibrado, se arroja el dado 100 veces
en forma independiente, obteniéndose 21 ases. ¿Qué valor podría utilizarse, en base a
esa información, como estimación de la probabilidad de as? Parece razonable utilizar la
frecuencia relativa de ases.
21
En este caso, si llamamos p a la probabilidad que queremos estimar, pˆ = = 0.21
100
Métodos de estimación puntual
¿Cómo obtener estimadores para un problema dado? Estudiaremos dos métodos que
proporcionan estimadores puntuales: el método de momentos y el método de máxima
verosimilitud.
Método de momentos: La idea básica consiste en igualar ciertas características

muestrales con las correspondientes características poblacionales. Recordemos la
siguiente definición.
161
Definición: Sea X una v.a. con función de probabilidad puntual p X (x) en el caso discreto
o función de densidad f X (x ) en el caso continuo. Se denomina momento de orden k
(k ∈ N) o momento poblacional de orden k a E(Xk), es decir
⎧ ∑ x k p X ( x) en el caso discreto
⎪⎪ x
E( X k ) = ⎨ ∞
⎪ ∫ x f X ( x) dx
k
en el caso continuo
⎪⎩- ∞
si esas esperanzas existen.
Como ya hemos visto cuando estudiamos función generadora de momentos de una

variable aleatoria, los momentos están relacionados con los parámetros de la distribución
asociada.
Definición: Dada una muestra aleatoria X 1 , X 2 ,..., X n , se denomina momento muestral

de orden k a
n k
∑ Xi
i =1
n
Definición: Sea X 1 , X 2 ,..., X n una m.a. de una distribución con función de probabilidad
puntual o función de densidad que depende de m parámetros θ 1 , θ 2 ,...., θ m . Los
estimadores de momentos de θ 1 , θ 2 ,...., θ m son los valores θˆ1 , θˆ2 ,...., θˆm que se obtienen
igualando m momentos poblacionales con los correspondientes momentos muestrales. En
general, se obtienen resolviendo el siguiente sistema de ecuaciones
∑X i
k
i =1
n
=E Xk ( ) k = 1,2,..., m
Ejemplos: 1) Sea X 1 , X 2 ,..., X n una m.a. de una distribución exponencial de parámetro λ.

Como hay un solo parámetro a estimar, basta plantear una ecuación basada en el primer
momento.
162
n n
∑ Xi ∑X i
n
= E(X ) ⇒
1 1
i =1 i =1
= ⇒ λˆ = ⇒ λˆ =
n n λ n
X
∑X i =1
i
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribución Γ(α, λ). Como hay dos parámetros a
estimar, planteamos un sistema de ecuaciones basadas en el primer y en el segundo
momento.
α α
Usando que si X ~ Γ(α,λ), E( X ) = y V (X ) = y la relación:
λ λ2
V ( X ) = E ( X 2 ) − (E ( X ) ) ,
2
⎧ n ⎧ n
⎪ ∑ Xi ⎪ ∑ Xi α
⎪ i =1 = E( X ) ⎪ i =1 =
⎪ n ⎪ n λ
⎨ n ⇒ ⎨ n
⎪ ∑ X i2 ⎪ ∑ X i2
α ⎛α ⎞
2
⎪ i =1 ⎪ i =1 = +
⎪⎩ n = E ( X )
2
⎪ n ⎜ ⎟
⎩ λ2 ⎝ λ ⎠
α
Reemplazando = X , en la segunda ecuación, se obtiene:
λ
n
∑X
i =1
i
2
X
= +X2
n λ
y, despejando λ :
X
∑X i
2
X
= i =1
−X2 ⇒ λˆ =
λ n n
∑X
i =1
i
2
−X2
n
Finalmente, reemplazando el estimador de λ en la primera ecuación, obtenemos el

estimador de α :
163
X2
αˆ = n
∑X
i =1
i
2
−X2
n
3) Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(0,θ). Como hay un único parámetro
a estimar, planteamos una ecuación basada en el primer momento.
∑X i
θ
i =1
= E( X ) = ⇒ θˆ = 2 X
n 2
4) Veamos por último un ejemplo que nos muestra que no siempre podemos utilizar los
momentos en el orden natural. Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(-θ,θ).
Como hay un único parámetro a estimar, parece natural plantear una ecuación basada en
el primer momento. Sin embargo, si lo hacemos,
∑X
i =1
i
= E( X ) = 0
n
Observamos que el primer momento poblacional no depende de θ y por lo tanto no

podemos despejar a partir de esta ecuación el estimador del parámetro. En este caso, es
necesario plantear una ecuación basada en el segundo momento:
n n
∑ X i2 (2θ )2 = θ 2
3 ∑ X i2
i =1
= E( X 2 ) = ⇒ θˆ = i =1
n 12 3 n
Método de máxima verosimilitud: Este método fue introducido por Fisher en la década
de 1920. Se basa en la idea de hallar los valores de los parámetros que hacen que la
probabilidad de obtener una muestra dada sea máxima.
Ejemplo: Se realiza una encuesta de opinión a una m.a. de 20 personas. Se les formula
una única pregunta que será respondida por Si o por NO. Sean X 1 , X 2 ,..., X 20 las v.a.
correspondientes a la respuesta, tales que
164
⎧1 si la persona i responde SI
Xi = ⎨
⎩0 si la persona i responde NO
para i =1, 2, ..., 20 y sea p = P( X i = 1) .
Observemos que las v.a. X i son independientes y cada una de ellas tiene distribución
Bi(1,p). Entonces, la función de probabilidad conjunta del vector ( X 1 , X 2 ,..., X 20 ) es
x 1− x x 1− x2 x 1− x20
p ( x1 , x 2 ,..., x 20 ) = p 1 (1 − p ) 1 p 2 (1 − p ) ... p 20 (1 − p )
Si en la muestra obtenida se observan 7 NO’s (0) y 13 SI’s (1), sería
13 7
p ( x1 , x 2 ,..., x 20 ) = p (1 − p )
La pregunta es: ¿qué valor de p hace que los valores muestrales obtenidos sean los más
probables?
Es decir, buscamos el valor de p que hace máxima p ( x1 , x 2 ,..., x 20 ) o equivalentemente

ln p( x1 , x 2 ,..., x 20 ) ya que ln es una función monótona creciente. Debemos maximizar la
siguiente función de p
g ( p) = ln p ( x1 , x 2 ,..., x 20 ) = 13 ln( p) + 7 ln(1 − p)
Para ello, como esta función es derivable respecto de p, buscamos los posibles puntos
críticos, igualando a 0 la derivada primera.
∂g ( p) 13 7 13(1 − p) − 7 p 13 − 20 p 13
0= = − = = ⇔ 13-20 p = 0 ⇔ pˆ =
∂p p 1− p p(1 − p) p(1 − p) 20
Este valor es en efecto el que maximiza g(p) pues
∂ 2 g ( p) 13 7
=− − <0
∂p 2 p =13 / 20
p 2
(1 − p ) 2 p =13 / 20
Definición: Sean X 1 , X 2 ,..., X n v.a. con función de probabilidad conjunta

p Xr ( x1 , x 2 ,..., x n ) o función de densidad conjunta f Xr ( x1 , x 2 ,..., x n ) que depende de m
parámetros θ 1 , θ 2 ,..., θ m . Cuando ( x1 , x 2 ,..., x n ) son los valores observados y la función
165
de probabilidad o de densidad conjunta se considera función de los parámetros

θ 1 ,θ 2 ,...,θ m , se denomina función de verosimilitud y se denota L(θ 1 ,θ 2 ,...,θ m ) .
Los estimadores de máxima verosimilitud (EMV) de θ 1 , θ 2 ,..., θ m son los valores

θˆ1 ,θˆ2 ,...,θˆm que maximizan la función de verosimilitud, o sea los valores tales que
~ ~ ~ ~ ~ ~
L(θˆ1 , θˆ2 ,..., θˆm ) ≥ L(θ 1 , θ 2 ,..., θ m ) ∀ θ 1 , θ 2 ,..., θ m
La forma general de los EMV se obtiene reemplazando los valores observados xi por las
v.a. Xi.
Ejemplos: 1) Sea X 1 , X 2 ,..., X n una m.a. de una distribución exponencial de parámetro λ.
n
n n −λ ∑ xi
f ( x1 , x 2 ,..., x n ) = ∏ f X i ( x i ) = ∏ λ e −λxi = λ n e i =1
i =1 i =1
por lo tanto, la función de verosimilitud es

n
−λ ∑ xi
L (λ ) = λ e
n i =1
Observemos que no incluimos los indicadores porque, dado que el rango de la v.a. no
depende del parámetro a estimar, podemos suponer que todas las observaciones son no
negativas.
n
ln L(λ ) = n ln(λ ) − λ ∑ xi
i =1
∂ ln L(λ ) n n
n 1
= − ∑ xi = 0 ⇔ λˆ = =
∂λ λ i =1 n
X
∑X
i =1
i
Verificar que el punto crítico obtenido es en efecto un máximo.
Observemos que en este caso el EMV coincide con el de momentos.
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribución N(μ,σ2).
−
(xi − μ )2
n n
1
f ( x1 , x 2 ,..., x n ) = ∏ f X i ( xi ) = ∏ e 2σ 2
i =1 i =1 2π σ
166
1 n
⎛ 1 ⎞ 1 − 2 σ 2 i∑=1( xi − μ )
n 2
= ⎜⎜ ⎟⎟ e
⎝ 2π ⎠ σ
n
Por lo tanto la función de verosimilitud es
1 n
⎛ 1 ⎞ 1 − 2 σ 2 i∑=1( xi − μ )
n 2
L( μ , σ ) = ⎜⎜ ⎟⎟ e
⎝ 2π ⎠ σ
n
y maximizarla equivale a maximizar su logaritmo
( )
n
1
ln L( μ , σ ) = − n ln 2π − n ln(σ ) −
2σ 2 ∑ (x
i =1
i − μ)2
⎧ ∂ ln L( μ , σ ) 1 n ⎧ n
⎪⎪ = 2 ∑ (xi − μ ) = 0 ⎪⎪ ∑ ( x i − μ ) = 0
∂μ σ i =1
⎨ ∂ ln L( μ , σ ) ⇔ ⎨
i =1
n
n 1 n ⎪ − nσ 2 + ∑ ( xi − μ )2 = 0
⎪ = − + 3 ∑ (xi − μ ) = 0
2
⎩⎪ ∂σ σ σ i =1 ⎪⎩ i =1
⎧ n
⎪ ∑ xi
⎪μ = i =1
⎪ n
⇔ ⎨ n
⎪ ∑ ( x i − μ )2
⎪
⎪σ =
i =1
⎩ n
y, reemplazando el valor estimado de μ en la segunda ecuación, se obtienen los EMV de

los parámetros
∑ (X − X)
n
2
i
μˆ = X σˆ = i =1
3) Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(0,θ).
167
n n n
1 1
f ( x1 , x 2 ,..., x n ) = ∏ f ( x i ) = ∏ I ( 0,θ ) ( x i ) = ∏ I (0,θ ) ( x )
θ
i
i =1 i =1 θn i =1
y la función de verosimilitud es
n
1
L(θ ) =
θn
∏ I (0,θ ) ( x )
i =1
i
Observemos que, en este caso, no es posible tomar logaritmo ni derivar porque el

parámetro (argumento de la función de verosimilitud) determina el soporte de la densidad.
Analicemos cómo es esta función para hallar su máximo
⎧1 ⎧1
⎪ si 0 < x i < θ ∀ i
⎪ si max( x i ) < θ
L(θ ) = ⎨θ n = ⎨θ n 1≤ i ≤ n
⎪⎩0 en caso contrario ⎪⎩0 en caso contrario
⎧1
⎪ si θ > max( xi )
= ⎨θ n 1≤ i ≤ n
⎪0 si θ ≤ max( x i )
⎩ 1≤ i ≤ n
Grafiquemos L(θ ) como función de θ .
Como se puede observar, el máximo de la función de verosimilitud se alcanza en

θ = max( xi ) y por lo tanto el EMV del parámetro es
1≤ 2 ≤ n
θˆ = max( X i )
1≤i≤ n
168
Propiedad de Invarianza de los EMV: Sea θˆ el EMV de θ y sea h una función

inyectiva con dominio en el rango de valores posibles de θ, entonces el EMV de h(θ ) es
h(θˆ) . Por ejemplo, en el caso de una m.a. de una distribución N(μ, σ2) hemos visto que el
EMV de σ es
∑ (X − X)
n
2
i
σ̂ = i =1
entonces el EMV de σ2 es
∑(X i − X )2
σ̂ 2 = i =1
pues la función h(x)=x2 es inyectiva si su dominio se restringe a los reales positivos, es

decir si h :ℜ ≥0 → ℜ.
En general, sean θˆ1 ,..., θˆm los EMV de θ 1 ,..., θ m y sea una función h : ℜ m → ℜ , ¿bajo
qué condiciones el EMV de h(θ 1 ,..., θ m ) es h(θˆ1 ,..., θˆm ) ? Esta propiedad, denominada
propiedad de invarianza de los EMV, se cumple si la función h puede ser completada a
una función inyectiva.
Propiedades de los estimadores y criterios de selección
Observemos que, dada una muestra X i , X 2 ,..., X n , donde X i ~ Fθ , un estimador

puntual del parámetro θ , obtenido en base a ella, es una v.a. θˆ . La diferencia
θˆ − θ
es el error de estimación y una estimación será más precisa cuanto menor sea este error.
Este error es también una v.a. dado que depende de la muestra obtenida. Para algunas
muestras será positivo, para otras negativo. Una propiedad deseable es que la esperanza
del error sea 0, es decir que “en promedio” el error obtenido al estimar a partir de
diferentes muestras sea cero.
Definición: Un estimador puntual θˆ del parámetro θ es insesgado si
Eθ (θˆ) = θ ∀θ
169
Si θˆ no es insesgado, se denomina sesgo de θˆ a b(θˆ) = Eθ (θˆ) − θ .
Por lo tanto, un estimador es insesgado si su distribución tiene como valor esperado al

parámetro a estimar.
Definición: Un estimador puntual θˆ del parámetro θ basado en una muestra X 1 ,..., X n ,es
asintóticamente insesgado si
Eθ (θˆ) ⎯n⎯
⎯→θ
→∞
∀θ
Ejemplos: 1) Sea X: número de éxitos en n repeticiones de un experimento binomial con

probabilidad de éxito igual a p. Entonces X ~ Bi(n,p) y hemos visto que el EMV de p es
pˆ = X / n , o sea la frecuencia relativa de éxitos. Verifiquemos que este estimador es
insesgado.
⎛X ⎞ E P ( X ) np
E P ( pˆ ) = E P ⎜ ⎟= = =p ∀p
⎝n ⎠ n n
y, por lo tanto, es insesgado.
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribución N(μ,σ2). Los EMV de μ y σ2 son
∑ (X − X)
n
2
i
μˆ = X σˆ 2 = i =1
Como E ( μˆ ) = μ ∀ μ , este estimador es insesgado.

μ ,σ 2
Verifiquemos que el estimador de la varianza no lo es.
⎛ n ⎞
⎜ ∑ (X i − X )
2
⎟
⎛ n ⎞
E 2 (σˆ 2 ) = E 2 ⎜ i =1
μ ,σ μ ,σ ⎜ n
⎟= 1E
⎟ n μ ,σ ⎝ ∑
2 ⎜ ( )
X i2 − 2 X i X + X 2 ⎟
i =1 ⎠
⎜ ⎟
⎝ ⎠
1 ⎛ n n
⎞ 1 ⎛ n ⎞
= E 2 ⎜ ∑ X i2 − 2 X ∑ X i + nX 2 ⎟ = E 2 ⎜ ∑ X i2 − 2nX 2 + nX 2 ⎟
n μ σ μ σ
,
⎝ i =1 i =1 ⎠ n ,
⎝ i =1 ⎠
170
1 ⎛ n ⎞ 1 ⎛ n ⎞ n
= E 2 ⎜ ∑ X i2 − nX 2 ⎟ = E 2 ⎜ ∑ X i2 ⎟ − E 2 ( X 2 ) = E 2 ( X 12 ) − E 2 ( X 2 )
n μ ,σ ⎝ i =1 ⎠ n μ ,σ ⎝ i =1 ⎠ μ ,σ n μ ,σ μ ,σ
=V [ μ ,σ 2
(
(X1) + E
μ ,σ 2
(X1) ) ]− [V
2
μ ,σ 2
(X ) + E ( μ ,σ 2
(X ) ) ]= σ
2 2
+μ − 2 σ2
n
− μ2 =
n −1 2
n
σ
Por lo tanto el EMV de la varianza no es insesgado, pero es asintóticamente insesgado ya

que su esperanza tiende a σ 2 cuando el tamaño de la muestra tiende a infinito.
∑ (X − X)
n
2
i
i =1
Ejercicio: Verificar que la varianza muestral S 2 = es un estimador
n −1
insesgado de la varianza poblacional cualquiera sea la distribución.
3) Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(0,θ). El estimador de momentos de

θ es θˆ = 2 X y el EMV es θˆ = max( X i ) .
1≤i ≤ n
El estimador de momentos es insesgado. En efecto,
θ
Eθ (θˆ) = 2 Eθ ( X ) = 2 = θ ∀θ
2
Verificaremos que el EMV no lo es. Para ello, necesitamos obtener la densidad de la v.a.
U = max( X i ) .
1≤i≤ n
Recordemos que, si X 1 , X 2 ,..., X n es una m.a. de una distribución U(0,θ), entonces
⎧ 0 si u ≤ 0
⎪⎪⎛ u ⎞ n
FU (u ) = (FX (u ) ) si 0 < u < θ
n
= ⎨⎜ ⎟
⎪⎝ θ ⎠
⎩⎪ 1 si u ≥ θ
entonces
n −1
⎛u⎞ 1
f U (u ) = n⎜ ⎟ I (0,θ ) (u ) .
⎝θ ⎠ θ
Calculemos la esperanza del EMV.
171
θ n −1 θ θ
⎛u⎞ n n u n +1 n
Eθ (max( X i ) ) = Eθ (U ) = ∫ u n⎜ ⎟
1
du = n ∫ u du = n
n
= θ
0 ⎝θ ⎠ θ θ 0 θ n +1 0 n +1
Entonces, el EMV no es insesgado pero es asintóticamente insesgado.
Cuando hay más de un estimador insesgado para un mismo parámetro, ¿cómo decidimos
cuál conviene usar? Por ejemplo, sea X 1 , X 2 ,..., X n una m.a. de una distribución N(μ,σ2).
Es inmediato verificar que los siguientes son todos estimadores insesgados de μ:
μˆ 1 = X
X1 + X 2
μˆ 2 =
2
μ3 = X1
ˆ
Las varianzas de estos estimadores son
σ2
V
μ ,σ 2 (μ
ˆ1 ) =
n
σ2
V
μ ,σ 2 (μ
ˆ2 ) =
2
V ( μˆ 3 ) = σ 2
μ ,σ 2
y parece natural elegir el estimador más preciso, es decir el de menor varianza.
Principio de estimación insesgada de mínima varianza: Entre todos los estimadores

insesgados de θ , elegir el de menor varianza. El estimador resultante se denomina IMVU
(insesgado de mínima varianza uniformemente). Existe una metodología que permite
hallar estimadores IMVU en muchas situaciones.
Teorema: Sea X 1 , X 2 ,..., X n una m.a. de una distribución N(μ,σ2). Entonces X es

estimador IMVU de μ.
A partir de este resultado deducimos que, si se tiene evidencia de que la m.a. proviene de
una distribución Normal, parece conveniente usar X como estimador de μ. Sin embargo,
si los datos no son Normales este estimador podría llegar a ser una pésima elección.
Ejemplo: Sean las siguientes distribuciones simétricas alrededor del parámetro μ
2
1 ⎛ x−μ ⎞
1 − ⎜⎜ ⎟
2 ⎝ σ ⎟⎠
a) N(μ,σ2) : f ( x) = e
2π σ
172
1
b) Cauchy de parámetro μ : f ( x) =
π (1 + ( x − μ ) 2 )
1
c) U(μ -1, μ +1) : f ( x) = I ( μ −1, μ +1) ( x)
2
La distribución de Cauchy tiene forma de campana como la distribución Normal, pero

tiene colas más pesadas que ésta. La distribución Uniforme no tiene colas, por lo tanto
podríamos decir que tiene colas más livianas que la Normal.
Consideremos los siguientes estimadores de μ:
~ max( X i ) + min ( X i )
μˆ 1 = X μˆ 2 = X μˆ 3 =
2
En el caso a), μ̂ 1 es IMVU y por lo tanto, es la elección correcta.
En el caso b), μ̂1 y μ̂ 3 son malos porque ambos son muy sensibles a la presencia de
observaciones atípicas y la distribución Cauchy produce una importante proporción de
ellas. Por lo tanto la mejor elección entre estos tres estimadores sería μ̂ 2 . También
podríamos utilizar una media podada.
En el caso c) el mejor estimador es μ̂ 3 porque la distribución no tiene colas.
Error standard de un estimador: Al informar el resultado de una estimación puntual es

necesario brindar información sobre la precisión de la estimación.
Definición: El error standard de un estimador θˆ es su desviación standard, es decir
σ θˆ = Vθ (θˆ)
Si el error standard depende de parámetros desconocidos, éstos se reemplazan por un

estimador y se obtiene el error standard estimado.
Ejemplo: Sea X 1 , X 2 ,..., X n una m.a. de una distribución N(μ,σ2). Entonces X es el

EMV de μ y su error standard es
σ2
σ X = Vμ ,σ 2 ( X ) =
n
173
Como depende del parámetro σ , podemos reemplazarlo por la varianza muestral y

obtenemos el error standard estimado
∑ (X − X)
n
2
i
S 2
σˆ X = =X i =1
n n(n − 1)
Definición: Sea θˆ un estimador de θ , su error cuadrático medio es
ECM θ (θˆ) = Eθ ⎡ θˆ − θ ⎤
⎢⎣
2
⎥⎦
( )
Si el estimador θˆ es insesgado el error cuadrático medio es igual a la varianza del
estimador.
[ ] 2
Proposición: ECM θ (θˆ) = Vθ (θˆ) + b(θˆ) , siendo b(θˆ) = Eθ (θˆ) − θ el sesgo del estimador.
Dem:
⎢⎣
(2
⎥⎦
)⎢⎣
(
ECM θ (θˆ) = Eθ ⎡ θˆ − θ ⎤ = Eθ ⎡ θˆ − Eθ (θˆ) + Eθ (θˆ) − θ ⎤
2
⎥⎦
)
( ) (
= Eθ ⎡ θˆ − Eθ (θˆ) + Eθ (θˆ) − θ
⎢⎣
2
) 2
( )(
+ 2 θˆ − Eθ (θˆ) Eθ (θˆ) − θ ⎤
⎥⎦
)
( ) (
= Eθ ⎡ θˆ − Eθ (θˆ) ⎤ + Eθ ⎡ Eθ (θˆ) − θ ⎤ + 2 Eθ θˆ − Eθ (θˆ) Eθ (θˆ) − θ
⎢⎣
2
⎥⎦ ⎢⎣
2
⎥⎦
) [( )( )]
Usando que la esperanza de una v.a. es una constante y la esperanza de una constante
es igual a ésta, se obtiene
( ) ( )
ECM θ (θˆ) = Eθ ⎡ θˆ − Eθ (θˆ) ⎤ + Eθ (θˆ) − θ + 2 Eθ (θˆ) − θ Eθ (θˆ) − Eθ (θˆ)
⎢⎣
2
⎥ 14243
2
( )( )
3⎦
1442443
14 4
42444
Vθ (θˆ )
2
(b(θˆ ) ) 0
[ ] 2
y, por lo tanto, ECM θ (θˆ) = Vθ (θˆ) + b(θˆ) , como queríamos demostrar.
174
Principio de estimación de menor error cuadrático medio: Dados dos o más estimadores
del parámetro θ, elegir el de menor ECM.
Este principio se reduce, en el caso de estimadores insesgados, al de mínima varianza

entre los insesgados mencionado más arriba, ya que el error cuadrático medio se reduce
a la varianza cuando un estimador es insesgado. Sin embargo, nos permite además
seleccionar, por ejemplo, entre un estimador insesgado y otro que no lo es, en base a la
varianza y al sesgo. Si el estimador sesgado tiene una varianza mucho menor que el
insesgado, podría ser preferible su uso.
Definición: Sea X 1 , X 2 ,..., X n una m.a de una distribución que depende de un parámetro
θ y sea θˆn un estimador puntual de θ basado en esa muestra. Diremos que {θˆ } es
n
una sucesión consistente (o más brevemente que θˆn es un estimador consistente de θ )

si
θˆn ⎯⎯→
p
θ
(
es decir, si ∀ ε > 0, P θˆn − θ > ε ⎯n⎯ )
⎯→ 0 .
→∞
Ejemplo: Sea X 1 , X 2 ,..., X n una m.a de una distribución con E( X i ) = μ y

V ( X i ) = σ < ∞ , entonces X es un estimador consistente de μ . En efecto, aplicando la
2
desigualdad de Chebyshev,
(
P X − μ >ε ≤ ) V (X )
ε2
σ2
= 2 ⎯n⎯
nε
⎯→ 0
→∞
∀ε > 0
X1 + X 2
Ejercicio: Verificar que, en este ejemplo, μˆ = no es consistente de μ .
2
Proposición: Sea X 1 , X 2 ,..., X n una m.a de una distribución que depende de un

parámetro θ y sea θˆn un estimador de θ basado en la muestra de tamaño n. Si
a) Eθ (θˆn ) ⎯n⎯⎯→θ (o sea, si el estimador es asintóticamente insesgado)

→∞
b) Vθ (θˆn ) ⎯n⎯⎯→ 0
→∞
entonces, θˆn es consistente de θ .
Dem: Si el estimador es insesgado, la demostración es inmediata, a partir de la

desigualdad de Chebyshev,. No daremos la demostración en el caso general.
175
Ejemplos: 1) Sea X 1 , X 2 ,..., X n una m.a de una distribución con E ( X i ) = μ y

V ( X i ) = σ < ∞ , entonces X es un estimador consistente de μ . En efecto, E ( X ) = μ y
2
σ2
V (X ) = . Por lo tanto, se satisfacen las dos condiciones de la Proposición.
n
2) Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(0,θ). Hemos demostrado antes que
n
el EMV de θ , θˆ = max( X i ) es asintóticamente insesgado pues Eθ (θˆ) = θ . Para
1≤i ≤ n n +1
probar que es consistente, verificaremos que su varianza tiende a cero cuando el tamaño
de la muestra tiende a infinito. Pero
[ ]
2
2
⎡ n ⎤
Vθ (θˆ) = Eθ (θˆ 2 ) − Eθ (θˆ) = Eθ (θˆ 2 ) − ⎢ θ
⎣ n + 1 ⎥⎦
entonces, debemos calcular la esperanza del cuadrado de la v.a. U = max( X i ) .

1≤i≤ n
Recordando que su densidad está dada por
n −1
⎛u⎞ 1
f U (u ) = n⎜ ⎟ I ( 0,θ ) (u )
⎝θ ⎠ θ
θ n −1 θ θ
⎛u⎞ 1 n n u n+2 n
Eθ (U ) = ∫ u n⎜ ⎟
2 2
du = ∫u
n +1
du = n = θ 2.
0 ⎝θ ⎠ θ θn 0 θ n+2 0 n+2
Entonces,
⎛ n ⎞ 2 ⎛⎜ n ⎞ 2
2
n n2 n
Vθ (θˆ) = θ2 −⎜ ⎟ θ = − ⎟θ = θ 2 ⎯n⎯⎯→ 0
n+2 ⎝ n +1⎠ ⎜ n + 2 (n + 1)2 ⎟ n + n + 2 →∞
⎝ ⎠ ( 2)( 1)
Por lo tanto, el EMV es consistente.
3) El último ejemplo que veremos ilustra como demostrar la consistencia de un estimador

a partir de la Ley de los Grandes Números y de las propiedades de la convergencia en
probabilidad.
En primer lugar recordemos que si X 1 , X 2 ,..., X n ,.... e Y1 , Y2 ,..., Yn ,... son sucesiones de
v.a. tales que X n ⎯
⎯→p
a e Yn ⎯
⎯→p
b , entonces:
a) X n ± Yn ⎯
⎯→p
a±b
b) X n Yn ⎯
⎯→p
ab
176
Xn p a
c) ⎯
⎯→ si b ≠ 0
Yn b
d) g ( X n ) ⎯
⎯→p
g (a ) si g es una función continua en a .
e) si c n es una sucesión numérica tal que c n ⎯
⎯→ c , entonces c n X n ⎯
⎯→p
ca
Sea X 1 , X 2 ,..., X n una m.a de una distribución con E ( X i ) = μ y V (X i ) = σ 2 < ∞ ,

demostraremos que la varianza muestral S X2 es un estimador consistente de la varianza
poblacional.
⎛ n 2 ⎞
∑ (X − X)
n
⎜ ∑ Xi
2
i ⎟
1 ⎛ n
2⎞ n ⎜ i =1 2⎟
S X2 = i =1
= ⎜ ∑ X i − nX ⎟ =
2
−X
n −1 n − 1 ⎝ i =1 ⎠ n −1⎜ n ⎟
⎜ ⎟
⎝ ⎠
Por la Ley de los Grandes Números X ⎯

⎯→p
μ , entonces por la propiedad d)
X2 ⎯
⎯→p
μ2.
Por otra parte, aplicando nuevamente la Ley de los Grandes Números
∑X i
2
2
i =1
⎯
⎯→p
E (X 2
) =V ( X ) + [ E 2 ( X )] =σ 2 + μ2
n μ ,σ 2 μ ,σ 2 μ ,σ
n
Como además → 1 , se obtiene
n −1
⎛ n 2 ⎞
⎜∑ Xi ⎟
n ⎜ i =1 2⎟
SX =
2
−X ⎯ ⎯→
p
σ 2 + μ2 − μ2 =σ 2
n −1 ⎜ n ⎟
⎜ ⎟
⎝ ⎠
y por lo tanto la varianza muestral es un estimador consistente de σ 2 .
177

PyEC132011 PDF

Cargado por

Copyright:

Formatos disponibles

También podría gustarte

PyEC132011 PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

PyEC132011 PDF

Cargado por

Copyright:

Formatos disponibles

Probabilidades y Estadística (Computación)

Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires

Inferencia estadística - Estimación puntual

La estadística provee técnicas que permiten obtener conclusiones generales a partir de un

La mayoría de las distribuciones de probabilidad dependen de cierto número de

Supongamos que se selecciona una muestra de tamaño n de una población. Antes de

Definición: Un estimador puntual de un parámetro θ es un valor que puede ser

Métodos de estimación puntual

Método de momentos: La idea básica consiste en igualar ciertas características

si esas esperanzas existen.

Como ya hemos visto cuando estudiamos función generadora de momentos de una

Definición: Dada una muestra aleatoria X 1 , X 2 ,..., X n , se denomina momento muestral

Ejemplos: 1) Sea X 1 , X 2 ,..., X n una m.a. de una distribución exponencial de parámetro λ.

Finalmente, reemplazando el estimador de λ en la primera ecuación, obtenemos el

Observamos que el primer momento poblacional no depende de θ y por lo tanto no

para i =1, 2, ..., 20 y sea p = P( X i = 1) .

Si en la muestra obtenida se observan 7 NO’s (0) y 13 SI’s (1), sería

Es decir, buscamos el valor de p que hace máxima p ( x1 , x 2 ,..., x 20 ) o equivalentemente

g ( p) = ln p ( x1 , x 2 ,..., x 20 ) = 13 ln( p) + 7 ln(1 − p)

Este valor es en efecto el que maximiza g(p) pues

Definición: Sean X 1 , X 2 ,..., X n v.a. con función de probabilidad conjunta

de probabilidad o de densidad conjunta se considera función de los parámetros

Los estimadores de máxima verosimilitud (EMV) de θ 1 , θ 2 ,..., θ m son los valores

Ejemplos: 1) Sea X 1 , X 2 ,..., X n una m.a. de una distribución exponencial de parámetro λ.

por lo tanto, la función de verosimilitud es

Verificar que el punto crítico obtenido es en efecto un máximo.

Observemos que en este caso el EMV coincide con el de momentos.

2) Sea X 1 , X 2 ,..., X n una m.a. de una distribución N(μ,σ2).

Por lo tanto la función de verosimilitud es

y maximizarla equivale a maximizar su logaritmo

y, reemplazando el valor estimado de μ en la segunda ecuación, se obtienen los EMV de

3) Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(0,θ).

Observemos que, en este caso, no es posible tomar logaritmo ni derivar porque el

Grafiquemos L(θ ) como función de θ .

Como se puede observar, el máximo de la función de verosimilitud se alcanza en

Propiedad de Invarianza de los EMV: Sea θˆ el EMV de θ y sea h una función

pues la función h(x)=x2 es inyectiva si su dominio se restringe a los reales positivos, es

Propiedades de los estimadores y criterios de selección

Observemos que, dada una muestra X i , X 2 ,..., X n , donde X i ~ Fθ , un estimador

Definición: Un estimador puntual θˆ del parámetro θ es insesgado si

Si θˆ no es insesgado, se denomina sesgo de θˆ a b(θˆ) = Eθ (θˆ) − θ .

Por lo tanto, un estimador es insesgado si su distribución tiene como valor esperado al

Ejemplos: 1) Sea X: número de éxitos en n repeticiones de un experimento binomial con

y, por lo tanto, es insesgado.

Como E ( μˆ ) = μ ∀ μ , este estimador es insesgado.

Verifiquemos que el estimador de la varianza no lo es.

Por lo tanto el EMV de la varianza no es insesgado, pero es asintóticamente insesgado ya

3) Sea X 1 , X 2 ,..., X n una m.a. de una distribución U(0,θ). El estimador de momentos de

El estimador de momentos es insesgado. En efecto,

Recordemos que, si X 1 , X 2 ,..., X n es una m.a. de una distribución U(0,θ), entonces

Calculemos la esperanza del EMV.

Entonces, el EMV no es insesgado pero es asintóticamente insesgado.

Las varianzas de estos estimadores son

y parece natural elegir el estimador más preciso, es decir el de menor varianza.

Principio de estimación insesgada de mínima varianza: Entre todos los estimadores

Teorema: Sea X 1 , X 2 ,..., X n una m.a. de una distribución N(μ,σ2). Entonces X es

Ejemplo: Sean las siguientes distribuciones simétricas alrededor del parámetro μ

La distribución de Cauchy tiene forma de campana como la distribución Normal, pero