Está en la página 1de 30

8.

Estimación puntual

Estadı́stica

Ingenierı́a Informática

Curso 2009-2010

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 1 / 30


Contenidos

1 Introducción

2 Construcción de estimadores
Método de los momentos
Método de máxima verosimilitud

3 Propiedades de los estimadores


Estimadores insesgados o centrados
Estimadores eficientes
Propiedades de los EMV
Consistencia y eficiencia asintóticas
Invarianza

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 2 / 30


Introducción

 
puntual
 estimación


por intervalos
 de confianza
Inferencia estadı́stica
sobre parámetros
 constrastes de hipótesis


de Bondad de Ajuste

estimación de los parámetros de una distribución: elegir el valor


(desconocido) de un parámetro de la población
constrastes de hipótesis: decidir entre rechazar o no una hipótesis
I sobre parámetros - para determinar si un parámetro de una
distribución toma o no un determinado valor
I de Bondad de Ajuste - para definir si un conjunto de datos se puede
modelar mediante una determinada distribución o no

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 3 / 30


Introducción

Estimación puntual
Estimación mediante un solo valor de los parámetros de una distribución.

La estimación puntual consiste en utilizar el valor de un estadı́stico para


inferir el parámetro de una población.

usamos la media muestral X̄ para estimar la media de una población µ


usamos la proporción de una muestra p̂ para estimar la proporción
poblacional p

Un estimador de un parámetro θ es un estadı́stico T = T (X1 , ..., Xn )


usado para estimar el valor del parámetro θ de una población.
El valor observado del estadı́stico t = T (x1 , ..., xn ) es la estimación de θ,
y la representamos por θ̂.

θ puede ser un solo parámetro o un conjunto de parámetros desconocidos


θ = (θ1 , ..., θk )
Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 4 / 30
Introducción

Los estimadores son variables aleatorias


tienen una distribución de probabilidad, correspondiente a las
distribuciones muestrales
su distribución (media, varianza, etc.) le confiere una serie de
propiedades estadı́sticas (sesgo, mı́nima varianza, consistencia,
eficiencia, suficiencia):
I se puede definir la calidad del estimador
I se puede comparar con otros estimadores
no hay ningún estimador perfecto: siempre habrá algún error en el
proceso de estimación
deben estudiarse las distintas propiedades de los estimadores para
decidir cual es el más apropiado...

¿Cómo construir un estimador?

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 5 / 30


Construcción de estimadores Método de los momentos

Construcción de estimadores

Objetivo: construir un estimador del parámetro poblacional θ = (θ1 , ..., θk )

1. Método de los momentos


los momentos caracterizan una distribución de probabilidad
si dos variables aleatorias tienen los mismos momentos, entonces
dichas variables tienen o siguen la misma función de densidad
Podemos emplear los momentos muestrales para estimar los parámetros,
basándonos en la intuición de que los momentos de la población, αr , se
“parecerán” a los respectivos momentos de la muestra, ar

Igualamos los k primeros momentos ordinarios de una población


a los correspondientes momentos de una muestra

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 6 / 30


Construcción de estimadores Método de los momentos

1. Método de los momentos (cont.)


r -ésimo momento ordinario ar de una muestra aleatoria (X1 , ..., Xn )
n
X
Xir
i=1
ar =
n
Entonces si una distribución tiene k parámetros desconocidos, para su
estimación se tendrá lo siguiente:

a1 = α1
a2 = α2
...
ak = αk

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 7 / 30


Construcción de estimadores Método de los momentos

Ejemplo 1. X ≡ Exp(λ):
Sea una variable aleatoria con distribución exponencial de
parámetro λ; queremos encontrar el estimador del parámetro
usando el método de los momentos.
Como sólo existe un parámetro, será : α1 = a1
1
El primer momento es la media, y en la exponencial es , por lo que:
λ
n
X
Xi
1 i=1 n 1
= ⇒ λ̂ = n = ,
λ n X X̄
Xi
i=1

es decir, el estadı́stico usado para estimar el parámetro λ es el inverso de


la media muestral

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 8 / 30


Construcción de estimadores Método de los momentos

Ejemplo 2. X ≡ N(µ, σ):


Estimar por el método de los momentos los parámetros µ y σ 2 de
una distribución normal.
Necesitamos estimar dos parámetros ⇒ usaremos los dos primeros
momentos ordinarios de la distribución normal:

α1 = µ; α2 = σ 2 + µ2 .

Igualando los dos primeros momentos poblacionales con sus respectivos


momentos muestrales y despejando tenemos que:
n
X n
X
Xi Xi2
i=1 i=1
µ̂ = = X̄ ; σ2 = − X̄ 2
n n

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 9 / 30


Construcción de estimadores Método de los momentos

Ejemplo 3. X ≡ BN(r , p):


Queremos estimar por el método de los momentos los parámetros r
y p de una distribución binomial negativa. Sabemos que E [X ] = r 1−p
p
y V (X ) = r 1−p
p2
⇒ E [X 2 ] = V (X ) + E [X ]2 = r (1−p)(1+r
p2
(1−p))
. Igualando
los momentos poblacionales y muestrales resulta:
P P 2
Xi 1−p Xi r (1 − p)(1 + r (1 − p))
=r =
n p n p2
Resolviendo el sistema:
X̄ X̄ 2
p̂ = 1P
r̂ = 1P
n Xi2 − X̄ 2 n Xi2 − X̄ 2 − X̄

Para una muestra de tamaño 3, con los valores (20, 19, 22), se obtiene la
estimación p̂ = 13,1 y r̂ = −22...

El método de los momentos puede presentar inconvenientes, como que la


estimación obtenida esté fuera del espacio paramétrico.
Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 10 / 30
Construcción de estimadores Método de máxima verosimilitud

2. Método de máxima verosimilitud


Se utiliza la función de masa p o densidad f (conjunta) de la muestra
como una función de θ = (θ1 , ..., θk ) (función de verosimilitud)


p(x1 ) · ... · p(xn ), en el caso discreto
L(θ) = L(θ|x1 , ..., xn ) =
f (x1 ) · ... · f (xn ), en el caso continuo

Se maximiza la función de verosimilitud.

El EMV de θ es el formado por los valores (θˆ1 , ..., θˆk ) que maximizan
la función de verosimilitud de la muestra (x1 , ..., xn ) obtenida.

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 11 / 30


Construcción de estimadores Método de máxima verosimilitud

L(θ) expresa la probabilidad (o densidad) que los diferentes valores de


θ dan a la muestra obtenida (maximizamos dicha probabilidad o
densidad).
El método permite construir buenos estimadores, de utilización
universal, denominados estimadores de máxima verosimilitud (EMV).
El estimador de máxima verosimilitud es siempre un valor del espacio
paramétrico.

En la práctica, es frecuente considerar la función logL(θ) a la hora de


maximizar, ya que presenta los mismos máximos y mı́nimos y suele ser más
fácil de manejar.

Propiedad de invarianza:
Si θ̂ es el EMV de θ, y g es una función biyectiva y diferenciable, entonces
g (θ̂) es el EMV de g (θ).

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 12 / 30


Construcción de estimadores Método de máxima verosimilitud

Ejemplo 1. X ≡ P(λ):
Vamos a calcular el EMV del parámetro λ de una distribución de
Poisson P(λ), para una muestra de tamaño n.
Construimos la función de verosimilitud de la muestra:
n n Pn
  Y Y e −λ λxi e −nλ λ i=1 xi
L λ̂ = p(xi ) = = Qn
xi ! i=1 xi !
i=1 i=1

Tomando logaritmos resulta:


  n
X n
X
log L λ̂ = −nλ + log λ xi − log xi !
i=1 i=1

Derivando respecto al parámetro e igualando a 0, se obtiene:


Xn Xn
  xi xi
∂ log L λ̂
i=1 i=1
= −n + =0 ⇒ λ̂ =
∂λ λ n
Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 13 / 30
Construcción de estimadores Método de máxima verosimilitud

Ejemplo 1. X ≡ P(λ) (cont.):


Debemos comprobar que efectivamente es un máximo; para ello,
calculamos la derivada segunda, que resulta
n
X
  xi
∂ 2 log L λ̂
= − i=12 < 0,
∂λ2 λ
por lo que el EMV de λ viene dado por la media muestral.

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 14 / 30


Construcción de estimadores Método de máxima verosimilitud

Ejemplo 2. X ≡ Unif (θ, θ + 1):


Calculemos ahora el EMV del parámetro θ que define una
distribución uniforme en el intervalo (θ, θ + 1).

Función de densidad para la uniforme en (θ, θ + 1) :

f (x) = 1, x ∈ (θ, θ + 1)

Función de verosimilitud (utilizando funciones indicadoras):


n
Y
L(θ) = I{θ<xi <θ+1)} = I{θ<mı́ni xi } I{θ>máxi xi −1} = I{máxi xi −1<θ<mı́ni xi }
i=1

que toma el valor constante 1 en el intervalo (máx xi − 1, mı́n xi ), ⇒


i i
cualquier punto de este intervalo maximiza la función de verosimilitud y
puede ser escogido como EMV.

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 15 / 30


Construcción de estimadores Método de máxima verosimilitud

Ejemplo 3. X ≡ N(µ, σ):


Vamos a calcular el EMV del parámetro θ = (µ, σ 2 ) de una N(µ, σ).
La verosimilitud de la muestra (x1 , . . . , xn ) es:
n  n
Y 1 1 1
P 2
2
L(θ) = L(µ, σ ) = √ ... = √ e − 2σ2 (xi −µ)
2πσ 2 2πσ 2
i=1

Su logaritmo es:
n n 1 X
log(L(θ)) = − log(σ 2 ) − log(2π) − 2 (xi − µ)2
2 2 2σ
Las derivadas parciales con respecto a los parámetros µ y σ 2 son:

∂ log(L(x1 , . . . , xn , λ)) 1 X
= 2 (xi − µ)
∂µ σ
∂ log(L(x1 , . . . , xn , λ)) n 1 X
2
=− 2 + (xi − µ)2
∂σ 2σ 2(σ 2 )2
que se anulan en:
b)2
P P
xi c2 = (xi − µ
µ
b= y σ
n n
Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 16 / 30
Construcción de estimadores Método de máxima verosimilitud

Ejemplo 3. X ≡ N(µ, σ): (cont.)


Las derivadas parciales segundas son:

∂ 2 log(L(x1 , . . . , xn , λ))

n
=− 2


∂µ 2 σ



2

∂ log(L(x1 , . . . , xn , λ)) 1 X 
=− 2 2 (xi − µ) ⇒
∂µ∂σ 2 (σ ) 

2
∂ log(L(x1 , . . . , xn , λ)) n 1 X


= − 2 3 (xi − µ)2 

2 2 2 2

∂(σ ) 2(σ ) (σ )
n
!
−c 0
Hθ̂ = σ2 (Matriz hessiana en θ̂)
n
0 − 2
2σ 2
c

Determinante positivo y autovalores negativos ⇒ el punto (b c2 ) es un


µ, σ
máximo ⇒ Si (X1 , . . . , Xn ) ≡ N(µ, σ), los EMV de µ y σ 2 son
respectivamente la media y la varianza empı́ricas de la muestra (como era
de esperar)
Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 17 / 30
Propiedades de los estimadores Estimadores insesgados o centrados

Estimadores insesgados

Un estimador θ̂ es insesgado para θ si


h i
E θ̂ = θ

propiedad muy deseable: establece que, en media, esperamos que el


valor de θ̂ sea θ
no evita otras propiedades “indeseables”: es importante tener presente
que la calidad “global” del estimador no reside en una única
propiedad, sino en un conjunto de ellas

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 18 / 30


Propiedades de los estimadores Estimadores insesgados o centrados

Ejemplo 1.
Sabemos que, en cualquier población:
  n−1 2
E sn2 =
 2 
= σ2,
 
E X̄ = µ, σ , E sn−1
n

la media muestral es un estimador insesgado para el parámetro µ


la varianza muestral es sesgada para σ 2
la cuasivarianza muestral es insesgada para la σ 2

Sabemos que cuando estudiamos la proporción p de una población que


presenta cierta caracterı́stica:

E [p̂] = p
la proporción muestral es insesgada para la proporción poblacional p

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 19 / 30


Propiedades de los estimadores Estimadores insesgados o centrados

Ejemplo 2. X ≡ Unif (0, θ):


Consideremos el estimador T (X1 , ..., Xn ) = máx{X1 , ..., Xn } = X(n)
para estimar el extremo superior del intervalo. Queremos determinar
si es un estimador insesgado. Necesitamos conocer su distribución para
calcular su esperanza...
1
La densidad de una uniforme en (0, θ) es f (x) =R xθ 1, para 0x < x < θ, y su
función de distribución es F (x) = P(X ≤ x) = 0 θ dt = θ , para
0 < x < θ. La distribución de X(n) es, para 0 < x < θ:
ind.
↓ xn
FX(n) = P(X(n) ≤ x) = P(X1 ≤ x, ..., Xn ≤ x) = P(X1 ≤ x) · ... · P(Xn ≤ x) =
θn
y por tanto, la función de densidad de la v.a. X(n) es
x n−1
fX(n) = n n , para 0 < x < θ
θ
Finalmente, calculamos su esperanza:
Z θ
nx n−1 n
E [X(n) ] = x n dx = θ < θ ⇒ es sesgado
0 θ n+1
Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 20 / 30
Propiedades de los estimadores Estimadores eficientes

Estimadores eficientes (I)


Una medida de la calidad de un estimador para θ no debe ser sólo que su
media sea el parámetro, sino que haya una alta probabilidad de que los
valores observados de θ̂ sean próximos a θ (varianza lo más pequeña
posible)

Dado θ̂ insesgado para θ, se dice que θ̂ es insesgado de mı́nima varianza


para θ si para cualquier otro estimador insesgado θ̂∗ de θ se verifica
   
V θ̂ ≤ V θ̂∗

dados dos estimadores insesgados, es preferible el que tiene menor


varianza (los valores observados del estimador serán más próximos a
la media = θ).
no existen estimadores insesgados con varianza tan pequeña como
quisiéramos (cota inferior para la varianza)

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 21 / 30


Propiedades de los estimadores Estimadores eficientes

Estimadores eficientes (II)


Teorema de Cramer-Rao:
Sean (X1 , ..., Xn ) una muestra aleatoria simple de una población X con
función de masa o densidad f (x; θ), siendo θ el parámetro que queremos
estimar, y θ̂ un estimador insesgado de θ. Entonces, la varianza de θ̂
satisface la desigualdad
  1
V θ̂ ≥ " 2 # cota de Cramer-Rao
∂ log f (X ; θ)
nE
∂θ

Expresión equivalente, más cómoda computacionalmente:


  1
V θ̂ ≥ −
∂ 2 log f (X ; θ)
 
nE
∂θ2
Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 22 / 30
Propiedades de los estimadores Estimadores eficientes

Estimadores eficientes (III)

Dado un estimador θ̂ insesgado para θ̂, el cociente entre la cota de


Cramer-Rao y su varianza se denomina eficiencia de θ̂

la eficiencia de un estimador insesgado es siempre menor o igual que 1

Un estimador insesgado con eficiencia igual a 1 se denomina eficiente

los estimadores eficientes existen sólo bajo determinadas condiciones

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 23 / 30


Propiedades de los estimadores Estimadores eficientes

Ejemplo:
Consideremos una población Bernouilli de parámetro θ desconocido.
Supongamos que tenemos dos estimadores θ̂1 y θ̂2 dados por

nX̄ + 1
θ̂1 = X̄ , θ̂2 = .
n+2
Por una parte: h i h i nθ + 1
E θ̂1 = θ y E θ̂2 =
n+2

⇒ θ̂1 es insesgado y θ̂2 es sesgado


Por otra parte:
  θ(1 − θ)   nθ(1 − θ)
V θ̂1 = y
V θ̂2 =
n (n + 2)2
   
⇒ V θ̂1 > V θ̂2

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 24 / 30


Propiedades de los estimadores Estimadores eficientes

Ejemplo (cont.):
Calculemos la cota de Cramer-Rao (CCR): como f (X ; θ) = θx (1 − θ)1−x :

log f (X ; θ) = x log θ + (1 − x) log(1 − θ)

Derivando dos veces:


∂ 2 f (X ; θ) x 1−x
=− 2 − ,
∂θ2 θ (1 − θ)2

y tomando esperanzas:
 2 
∂ f (X ; θ) 1 1 −1
E =− − = ,
∂θ2 θ 1−θ θ(1 − θ)

1 θ(1 − θ)
⇒ CCR = − = = V (θ̂1 )
∂ 2 f (X ; θ)

n
nE
∂θ2
θ̂1 es eficiente pero θ̂2 tiene menor varianza
Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 25 / 30
Propiedades de los estimadores Estimadores eficientes

Se llama error cuadrático medio del estimador θ̂ a

ECM(θ̂) = E [(θ̂ − θ)2 ]

Si llamamos sesgo del estimador θ̂ a

B(θ̂) = E [θ] − θ

se tiene que
 2
ECM(θ̂) = V (θ̂) + B(θ̂)

Exigir un estimador con ECM pequeño implica minimizar


simultáneamente su sesgo y su varianza.
Para los estimadores insesgados, el criterio coincide con minimizar la
varianza (acotada por CCR), es decir, se busca el estimador eficiente.

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 26 / 30


Propiedades de los estimadores Propiedades de los EMV

Propiedades de los EMV


El uso extendido del método de máxima verosimilitud para la construcción
de estimadores de θ se debe a las óptimas propiedades que éstos poseen
cuando el n es suficientemente grande.
Sea θ̂ el EMV de θ, para la verosimilitud f (x; θ). Entonces,
h i 1 1
lı́m E θ̂ = θ, y lı́m V (θ) =  2 
n→∞ n→∞ n ∂ log f (X ;θ)
E ∂θ

Cuando n crece, la distribución del EMV θ es aproximadamente


normal.
Puesto que la varianza del estimador tiende a la cota de Cramer-Rao,
cuando n crece, el EMV es asintóticamente eficiente.
Propiedad de Invarianza: Si θ̂ es el EMV de θ, y g es una función
biyectiva y diferenciable, entonces g (θ̂) es el estimador de máxima
verosimilitud de g (θ).
Por ejemplo, si θ̂ es el EMV de σ, entonces θ̂2 es el EMV de σ 2
Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 27 / 30
Propiedades de los estimadores Propiedades de los EMV

Ejemplo:
Vamos a calcular el EMV de θ para la distribución uniforme en
(0, θ), utilizando una muestra aleatoria de tamaño n.
 n  n
1 1
L(X1 , ..., Xn ; θ) = · I{0≤Xi ≤θ, ∀i} = · I{θ≥X(n) } · I{X(1) >0} ,
θ θ
 n
1
que toma el valor en el intervalo [ X(n) , +∞) y toma el valor 0
θ
fuera de dicho intervalo.
 n
1
decreciente con θ ⇒ el máximo se alcanza en θ̂ = X(n)
θ

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 28 / 30


Propiedades de los estimadores Propiedades de los EMV

Ejemplo (cont.):
Como vimos anteriormente, la función de distribución del estimador X(n)
es:

FX(n) (x) = P(X(n) < x) = P(X1 < x, ..., Xn < x) =



 0,  x <0
n
  x n
= P(X1 < x) · · · · · P(Xn < x) = [P(X1 < x)] = , 0≤x ≤θ
 θ

1, x >θ
y su densidad es:

x n−1
0≤x ≤θ

fX(n) (x) = n
,n
 0, θ en el resto

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 29 / 30


Propiedades de los estimadores Propiedades de los EMV

Ejemplo (cont.):
También sabemos que:
θ
x n−1
Z
  nθ
E X(n) = xn n
dx =
0 θ n+1
Calculemos la varianza de X(n)

θ 2
x n−1 nθ2
Z 
 2 nθ
V X(n) = x n n dx − = →0
0 θ n+1 (n + 1)2 (n + 2)

El EMV para θ no es insesgado, pero sı́ asintóticamente eficiente.

Estadı́stica (Aurora Torrente) 8. Estimación puntual Curso 2009-2010 30 / 30

También podría gustarte