Estimadores PDF

8.
Estimación puntual
Estadı́stica
Ingenierı́a Informática
Curso 2009-2010
Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 1 / 30

Contenidos
1 Introducción
2 Construcción de estimadores
Método de los momentos
Método de máxima verosimilitud
3 Propiedades de los estimadores

Estimadores insesgados o centrados
Estimadores eficientes
Propiedades de los EMV
Consistencia y eficiencia asintóticas
Invarianza

Introducción

puntual
 estimación


por intervalos
de confianza
Inferencia estadı́stica
sobre parámetros
 constrastes de hipótesis


de Bondad de Ajuste
estimación de los parámetros de una distribución: elegir el valor

(desconocido) de un parámetro de la población
constrastes de hipótesis: decidir entre rechazar o no una hipótesis
I sobre parámetros - para determinar si un parámetro de una
distribución toma o no un determinado valor
I de Bondad de Ajuste - para definir si un conjunto de datos se puede
modelar mediante una determinada distribución o no

Introducción
Estimación puntual
Estimación mediante un solo valor de los parámetros de una distribución.
La estimación puntual consiste en utilizar el valor de un estadı́stico para

inferir el parámetro de una población.
usamos la media muestral X̄ para estimar la media de una población µ

usamos la proporción de una muestra p̂ para estimar la proporción
poblacional p
Un estimador de un parámetro θ es un estadı́stico T = T (X1 , ..., Xn )

usado para estimar el valor del parámetro θ de una población.
El valor observado del estadı́stico t = T (x1 , ..., xn ) es la estimación de θ,
y la representamos por θ̂.
θ puede ser un solo parámetro o un conjunto de parámetros desconocidos

θ = (θ1 , ..., θk )
Introducción
Los estimadores son variables aleatorias

tienen una distribución de probabilidad, correspondiente a las
distribuciones muestrales
su distribución (media, varianza, etc.) le confiere una serie de
propiedades estadı́sticas (sesgo, mı́nima varianza, consistencia,
eficiencia, suficiencia):
I se puede definir la calidad del estimador
I se puede comparar con otros estimadores
no hay ningún estimador perfecto: siempre habrá algún error en el
proceso de estimación
deben estudiarse las distintas propiedades de los estimadores para
decidir cual es el más apropiado...
¿Cómo construir un estimador?

Construcción de estimadores Método de los momentos
Construcción de estimadores
Objetivo: construir un estimador del parámetro poblacional θ = (θ1 , ..., θk )
1. Método de los momentos

los momentos caracterizan una distribución de probabilidad
si dos variables aleatorias tienen los mismos momentos, entonces
dichas variables tienen o siguen la misma función de densidad
Podemos emplear los momentos muestrales para estimar los parámetros,
basándonos en la intuición de que los momentos de la población, αr , se
“parecerán” a los respectivos momentos de la muestra, ar
Igualamos los k primeros momentos ordinarios de una población

a los correspondientes momentos de una muestra

1. Método de los momentos (cont.)

r -ésimo momento ordinario ar de una muestra aleatoria (X1 , ..., Xn )
n
X
Xir
i=1
ar =
n
Entonces si una distribución tiene k parámetros desconocidos, para su
estimación se tendrá lo siguiente:
a1 = α1
a2 = α2
...
ak = αk

Ejemplo 1. X ≡ Exp(λ):
Sea una variable aleatoria con distribución exponencial de
parámetro λ; queremos encontrar el estimador del parámetro
usando el método de los momentos.
Como sólo existe un parámetro, será : α1 = a1
1
El primer momento es la media, y en la exponencial es , por lo que:
λ
n
X
Xi
1 i=1 n 1
= ⇒ λ̂ = n = ,
λ n X X̄
Xi
i=1
es decir, el estadı́stico usado para estimar el parámetro λ es el inverso de

la media muestral

Ejemplo 2. X ≡ N(µ, σ):

Estimar por el método de los momentos los parámetros µ y σ 2 de
una distribución normal.
Necesitamos estimar dos parámetros ⇒ usaremos los dos primeros
momentos ordinarios de la distribución normal:
α1 = µ; α2 = σ 2 + µ2 .
Igualando los dos primeros momentos poblacionales con sus respectivos

momentos muestrales y despejando tenemos que:
n
X n
X
Xi Xi2
i=1 i=1
µ̂ = = X̄ ; σ2 = − X̄ 2
n n

Ejemplo 3. X ≡ BN(r , p):

Queremos estimar por el método de los momentos los parámetros r
y p de una distribución binomial negativa. Sabemos que E [X ] = r 1−p
p
y V (X ) = r 1−p
p2
⇒ E [X 2 ] = V (X ) + E [X ]2 = r (1−p)(1+r
p2
(1−p))
. Igualando
los momentos poblacionales y muestrales resulta:
P P 2
Xi 1−p Xi r (1 − p)(1 + r (1 − p))
=r =
n p n p2
Resolviendo el sistema:
X̄ X̄ 2
p̂ = 1P
r̂ = 1P
n Xi2 − X̄ 2 n Xi2 − X̄ 2 − X̄
Para una muestra de tamaño 3, con los valores (20, 19, 22), se obtiene la
estimación p̂ = 13,1 y r̂ = −22...
El método de los momentos puede presentar inconvenientes, como que la

estimación obtenida esté fuera del espacio paramétrico.
Construcción de estimadores Método de máxima verosimilitud
2. Método de máxima verosimilitud

Se utiliza la función de masa p o densidad f (conjunta) de la muestra
como una función de θ = (θ1 , ..., θk ) (función de verosimilitud)

p(x1 ) · ... · p(xn ), en el caso discreto
L(θ) = L(θ|x1 , ..., xn ) =
f (x1 ) · ... · f (xn ), en el caso continuo
Se maximiza la función de verosimilitud.
El EMV de θ es el formado por los valores (θˆ1 , ..., θˆk ) que maximizan
la función de verosimilitud de la muestra (x1 , ..., xn ) obtenida.

L(θ) expresa la probabilidad (o densidad) que los diferentes valores de

θ dan a la muestra obtenida (maximizamos dicha probabilidad o
densidad).
El método permite construir buenos estimadores, de utilización
universal, denominados estimadores de máxima verosimilitud (EMV).
El estimador de máxima verosimilitud es siempre un valor del espacio
paramétrico.
En la práctica, es frecuente considerar la función logL(θ) a la hora de

maximizar, ya que presenta los mismos máximos y mı́nimos y suele ser más
fácil de manejar.
Propiedad de invarianza:
Si θ̂ es el EMV de θ, y g es una función biyectiva y diferenciable, entonces
g (θ̂) es el EMV de g (θ).

Ejemplo 1. X ≡ P(λ):
Vamos a calcular el EMV del parámetro λ de una distribución de
Poisson P(λ), para una muestra de tamaño n.
Construimos la función de verosimilitud de la muestra:
n n Pn
Y Y e −λ λxi e −nλ λ i=1 xi
L λ̂ = p(xi ) = = Qn
xi ! i=1 xi !
i=1 i=1
Tomando logaritmos resulta:

n
X n
X
log L λ̂ = −nλ + log λ xi − log xi !
i=1 i=1
Derivando respecto al parámetro e igualando a 0, se obtiene:

Xn Xn
xi xi
∂ log L λ̂
i=1 i=1
= −n + =0 ⇒ λ̂ =
∂λ λ n
Ejemplo 1. X ≡ P(λ) (cont.):

Debemos comprobar que efectivamente es un máximo; para ello,
calculamos la derivada segunda, que resulta
n
X
xi
∂ 2 log L λ̂
= − i=12 < 0,
∂λ2 λ
por lo que el EMV de λ viene dado por la media muestral.

Ejemplo 2. X ≡ Unif (θ, θ + 1):

Calculemos ahora el EMV del parámetro θ que define una
distribución uniforme en el intervalo (θ, θ + 1).
Función de densidad para la uniforme en (θ, θ + 1) :
f (x) = 1, x ∈ (θ, θ + 1)
Función de verosimilitud (utilizando funciones indicadoras):

n
Y
L(θ) = I{θ<xi <θ+1)} = I{θ<mı́ni xi } I{θ>máxi xi −1} = I{máxi xi −1<θ<mı́ni xi }
i=1
que toma el valor constante 1 en el intervalo (máx xi − 1, mı́n xi ), ⇒

i i
cualquier punto de este intervalo maximiza la función de verosimilitud y
puede ser escogido como EMV.

Ejemplo 3. X ≡ N(µ, σ):

Vamos a calcular el EMV del parámetro θ = (µ, σ 2 ) de una N(µ, σ).
La verosimilitud de la muestra (x1 , . . . , xn ) es:
n n
Y 1 1 1
P 2
2
L(θ) = L(µ, σ ) = √ ... = √ e − 2σ2 (xi −µ)
2πσ 2 2πσ 2
i=1
Su logaritmo es:
n n 1 X
log(L(θ)) = − log(σ 2 ) − log(2π) − 2 (xi − µ)2
2 2 2σ
Las derivadas parciales con respecto a los parámetros µ y σ 2 son:
∂ log(L(x1 , . . . , xn , λ)) 1 X
= 2 (xi − µ)
∂µ σ
∂ log(L(x1 , . . . , xn , λ)) n 1 X
2
=− 2 + (xi − µ)2
∂σ 2σ 2(σ 2 )2
que se anulan en:
b)2
P P
xi c2 = (xi − µ
µ
b= y σ
n n
Ejemplo 3. X ≡ N(µ, σ): (cont.)

Las derivadas parciales segundas son:
∂ 2 log(L(x1 , . . . , xn , λ))

n
=− 2


∂µ 2 σ



2

∂ log(L(x1 , . . . , xn , λ)) 1 X 
=− 2 2 (xi − µ) ⇒
∂µ∂σ 2 (σ ) 

2
∂ log(L(x1 , . . . , xn , λ)) n 1 X


= − 2 3 (xi − µ)2 

2 2 2 2

∂(σ ) 2(σ ) (σ )
n
!
−c 0
Hθ̂ = σ2 (Matriz hessiana en θ̂)
n
0 − 2
2σ 2
c
Determinante positivo y autovalores negativos ⇒ el punto (b c2 ) es un

µ, σ
máximo ⇒ Si (X1 , . . . , Xn ) ≡ N(µ, σ), los EMV de µ y σ 2 son
respectivamente la media y la varianza empı́ricas de la muestra (como era
de esperar)
Propiedades de los estimadores Estimadores insesgados o centrados
Estimadores insesgados
Un estimador θ̂ es insesgado para θ si

h i
E θ̂ = θ
propiedad muy deseable: establece que, en media, esperamos que el

valor de θ̂ sea θ
no evita otras propiedades “indeseables”: es importante tener presente
que la calidad “global” del estimador no reside en una única
propiedad, sino en un conjunto de ellas

Ejemplo 1.
Sabemos que, en cualquier población:
n−1 2
E sn2 =
2
= σ2,

E X̄ = µ, σ , E sn−1
n
la media muestral es un estimador insesgado para el parámetro µ

la varianza muestral es sesgada para σ 2
la cuasivarianza muestral es insesgada para la σ 2
Sabemos que cuando estudiamos la proporción p de una población que

presenta cierta caracterı́stica:
E [p̂] = p
la proporción muestral es insesgada para la proporción poblacional p

Ejemplo 2. X ≡ Unif (0, θ):

Consideremos el estimador T (X1 , ..., Xn ) = máx{X1 , ..., Xn } = X(n)
para estimar el extremo superior del intervalo. Queremos determinar
si es un estimador insesgado. Necesitamos conocer su distribución para
calcular su esperanza...
1
La densidad de una uniforme en (0, θ) es f (x) =R xθ 1, para 0x < x < θ, y su
función de distribución es F (x) = P(X ≤ x) = 0 θ dt = θ , para
0 < x < θ. La distribución de X(n) es, para 0 < x < θ:
ind.
↓ xn
FX(n) = P(X(n) ≤ x) = P(X1 ≤ x, ..., Xn ≤ x) = P(X1 ≤ x) · ... · P(Xn ≤ x) =
θn
y por tanto, la función de densidad de la v.a. X(n) es
x n−1
fX(n) = n n , para 0 < x < θ
θ
Finalmente, calculamos su esperanza:
Z θ
nx n−1 n
E [X(n) ] = x n dx = θ < θ ⇒ es sesgado
0 θ n+1
Propiedades de los estimadores Estimadores eficientes
Estimadores eficientes (I)

Una medida de la calidad de un estimador para θ no debe ser sólo que su
media sea el parámetro, sino que haya una alta probabilidad de que los
valores observados de θ̂ sean próximos a θ (varianza lo más pequeña
posible)
Dado θ̂ insesgado para θ, se dice que θ̂ es insesgado de mı́nima varianza

para θ si para cualquier otro estimador insesgado θ̂∗ de θ se verifica

V θ̂ ≤ V θ̂∗
dados dos estimadores insesgados, es preferible el que tiene menor

varianza (los valores observados del estimador serán más próximos a
la media = θ).
no existen estimadores insesgados con varianza tan pequeña como
quisiéramos (cota inferior para la varianza)

Estimadores eficientes (II)

Teorema de Cramer-Rao:
Sean (X1 , ..., Xn ) una muestra aleatoria simple de una población X con
función de masa o densidad f (x; θ), siendo θ el parámetro que queremos
estimar, y θ̂ un estimador insesgado de θ. Entonces, la varianza de θ̂
satisface la desigualdad
1
V θ̂ ≥ " 2 # cota de Cramer-Rao
∂ log f (X ; θ)
nE
∂θ
Expresión equivalente, más cómoda computacionalmente:

1
V θ̂ ≥ −
∂ 2 log f (X ; θ)

nE
∂θ2
Estimadores eficientes (III)
Dado un estimador θ̂ insesgado para θ̂, el cociente entre la cota de

Cramer-Rao y su varianza se denomina eficiencia de θ̂
la eficiencia de un estimador insesgado es siempre menor o igual que 1
Un estimador insesgado con eficiencia igual a 1 se denomina eficiente
los estimadores eficientes existen sólo bajo determinadas condiciones

Ejemplo:
Consideremos una población Bernouilli de parámetro θ desconocido.
Supongamos que tenemos dos estimadores θ̂1 y θ̂2 dados por
nX̄ + 1
θ̂1 = X̄ , θ̂2 = .
n+2
Por una parte: h i h i nθ + 1
E θ̂1 = θ y E θ̂2 =
n+2
⇒ θ̂1 es insesgado y θ̂2 es sesgado

Por otra parte:
θ(1 − θ) nθ(1 − θ)
V θ̂1 = y
V θ̂2 =
n (n + 2)2

⇒ V θ̂1 > V θ̂2

Ejemplo (cont.):
Calculemos la cota de Cramer-Rao (CCR): como f (X ; θ) = θx (1 − θ)1−x :
log f (X ; θ) = x log θ + (1 − x) log(1 − θ)
Derivando dos veces:

∂ 2 f (X ; θ) x 1−x
=− 2 − ,
∂θ2 θ (1 − θ)2
y tomando esperanzas:
2
∂ f (X ; θ) 1 1 −1
E =− − = ,
∂θ2 θ 1−θ θ(1 − θ)
1 θ(1 − θ)
⇒ CCR = − = = V (θ̂1 )
∂ 2 f (X ; θ)

n
nE
∂θ2
θ̂1 es eficiente pero θ̂2 tiene menor varianza
Se llama error cuadrático medio del estimador θ̂ a
ECM(θ̂) = E [(θ̂ − θ)2 ]
Si llamamos sesgo del estimador θ̂ a
B(θ̂) = E [θ] − θ
se tiene que
2
ECM(θ̂) = V (θ̂) + B(θ̂)
Exigir un estimador con ECM pequeño implica minimizar

simultáneamente su sesgo y su varianza.
Para los estimadores insesgados, el criterio coincide con minimizar la
varianza (acotada por CCR), es decir, se busca el estimador eficiente.

Propiedades de los estimadores Propiedades de los EMV
Propiedades de los EMV

El uso extendido del método de máxima verosimilitud para la construcción
de estimadores de θ se debe a las óptimas propiedades que éstos poseen
cuando el n es suficientemente grande.
Sea θ̂ el EMV de θ, para la verosimilitud f (x; θ). Entonces,
h i 1 1
lı́m E θ̂ = θ, y lı́m V (θ) = 2
n→∞ n→∞ n ∂ log f (X ;θ)
E ∂θ
Cuando n crece, la distribución del EMV θ es aproximadamente

normal.
Puesto que la varianza del estimador tiende a la cota de Cramer-Rao,
cuando n crece, el EMV es asintóticamente eficiente.
Propiedad de Invarianza: Si θ̂ es el EMV de θ, y g es una función
biyectiva y diferenciable, entonces g (θ̂) es el estimador de máxima
verosimilitud de g (θ).
Por ejemplo, si θ̂ es el EMV de σ, entonces θ̂2 es el EMV de σ 2
Ejemplo:
Vamos a calcular el EMV de θ para la distribución uniforme en
(0, θ), utilizando una muestra aleatoria de tamaño n.
n n
1 1
L(X1 , ..., Xn ; θ) = · I{0≤Xi ≤θ, ∀i} = · I{θ≥X(n) } · I{X(1) >0} ,
θ θ
n
1
que toma el valor en el intervalo [ X(n) , +∞) y toma el valor 0
θ
fuera de dicho intervalo.
n
1
decreciente con θ ⇒ el máximo se alcanza en θ̂ = X(n)
θ

Ejemplo (cont.):
Como vimos anteriormente, la función de distribución del estimador X(n)
es:
FX(n) (x) = P(X(n) < x) = P(X1 < x, ..., Xn < x) =


 0, x <0
n
 x n
= P(X1 < x) · · · · · P(Xn < x) = [P(X1 < x)] = , 0≤x ≤θ
 θ

1, x >θ
y su densidad es:

x n−1
0≤x ≤θ

fX(n) (x) = n
,n
 0, θ en el resto

Ejemplo (cont.):
También sabemos que:
θ
x n−1
Z
nθ
E X(n) = xn n
dx =
0 θ n+1
Calculemos la varianza de X(n)
θ 2
x n−1 nθ2
Z
2 nθ
V X(n) = x n n dx − = →0
0 θ n+1 (n + 1)2 (n + 2)
El EMV para θ no es insesgado, pero sı́ asintóticamente eficiente.

Estimadores PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estimadores PDF

Cargado por

Copyright:

Formatos disponibles

8.

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 1 / 30

3 Propiedades de los estimadores

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 2 / 30

estimación de los parámetros de una distribución: elegir el valor

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 3 / 30

La estimación puntual consiste en utilizar el valor de un estadı́stico para

usamos la media muestral X̄ para estimar la media de una población µ

Un estimador de un parámetro θ es un estadı́stico T = T (X1 , ..., Xn )

θ puede ser un solo parámetro o un conjunto de parámetros desconocidos

Los estimadores son variables aleatorias

¿Cómo construir un estimador?

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 5 / 30

Objetivo: construir un estimador del parámetro poblacional θ = (θ1 , ..., θk )

1. Método de los momentos

Igualamos los k primeros momentos ordinarios de una población

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 6 / 30

1. Método de los momentos (cont.)

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 7 / 30

es decir, el estadı́stico usado para estimar el parámetro λ es el inverso de

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 8 / 30

Ejemplo 2. X ≡ N(µ, σ):

Igualando los dos primeros momentos poblacionales con sus respectivos

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 9 / 30

Ejemplo 3. X ≡ BN(r , p):

El método de los momentos puede presentar inconvenientes, como que la

2. Método de máxima verosimilitud

Se maximiza la función de verosimilitud.

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 11 / 30

L(θ) expresa la probabilidad (o densidad) que los diferentes valores de

En la práctica, es frecuente considerar la función logL(θ) a la hora de

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 12 / 30

Tomando logaritmos resulta:

Derivando respecto al parámetro e igualando a 0, se obtiene:

Ejemplo 1. X ≡ P(λ) (cont.):

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 14 / 30

Ejemplo 2. X ≡ Unif (θ, θ + 1):

Función de densidad para la uniforme en (θ, θ + 1) :

Función de verosimilitud (utilizando funciones indicadoras):

que toma el valor constante 1 en el intervalo (máx xi − 1, mı́n xi ), ⇒

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 15 / 30

Ejemplo 3. X ≡ N(µ, σ):

Ejemplo 3. X ≡ N(µ, σ): (cont.)

Determinante positivo y autovalores negativos ⇒ el punto (b c2 ) es un

Un estimador θ̂ es insesgado para θ si

propiedad muy deseable: establece que, en media, esperamos que el

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 18 / 30

la media muestral es un estimador insesgado para el parámetro µ

Sabemos que cuando estudiamos la proporción p de una población que

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 19 / 30

Ejemplo 2. X ≡ Unif (0, θ):

Estimadores eficientes (I)

Dado θ̂ insesgado para θ, se dice que θ̂ es insesgado de mı́nima varianza

dados dos estimadores insesgados, es preferible el que tiene menor

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 21 / 30

Estimadores eficientes (II)

Expresión equivalente, más cómoda computacionalmente:

Estimadores eficientes (III)

Dado un estimador θ̂ insesgado para θ̂, el cociente entre la cota de

la eficiencia de un estimador insesgado es siempre menor o igual que 1

Un estimador insesgado con eficiencia igual a 1 se denomina eficiente

los estimadores eficientes existen sólo bajo determinadas condiciones

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 23 / 30