Estimacion Puntual PDF

Capı́tulo 4
Estimación puntual
El objetivo que se marca la Estadı́stica es adaptar un modelo de comportamiento a distintas

caracterı́sticas de una población, para poder estimarlas. Para ello partimos del conocimiento de cada
caracterı́stica en una muestra a la que pedimos sea suficientemente representativa. Se puede definir
esta representatividad de distintas maneras, y cada una llevarı́a a un concepto diferente de muestra.
La definición que consideraremos en este capı́tulo (y que utilizaremos en los sucesivos) es la más
sencilla y habitual.
Una vez tomada una muestra representativa, se decide tomar cierto modelo para la caracterı́stica
estudiada, que supondremos es numérica. Si esta caracterı́stica, X, es de tipo de discreto, la conside-
raremos como una variable aleatoria, y ası́ adaptaremos un modelo con distribución dada por una
función de masa P . Si X es de tipo continuo, el modelo vendrá dado por una función de masa, f .
Para abreviar, diremos que estamos estudiando una población X con función de masa P (o función
de densidad f ).
1. Muestra aleatoria. Parámetro y estimador

Definición 1.1. Una muestra aleatoria de tamaño N , de una población X con función de
masa P (o función de densidad f ), es un vector aleatorio (X1 � X2 � . . . � XN ) donde:
a) La distribución marginal de cada Xi viene dada por P (o por f ).
b) X1 , . . . , XN son independientes.
Veamos cómo, con esta definición, podemos tomar siempre una muestra aleatoria como una
muestra representativa de la población estudiada.
a) Cada Xi representa el valor de X en el elemento i–ésimo de la muestra.
b) El hecho de que cada distribución marginal venga dada por la misma distribución significa,
informalmente, que todos los elementos de la población tienen la misma oportunidad de aparecer
en la muestra. Con otras palabras: la probabilidad de que un valor aparezca en la observación
i–ésima depende sólo de la probabilidad que dicho valor tiene en la población, de manera que
cada observación representa por igual a la población.
67
68 CAPÍTULO 4. ESTIMACIÓN PUNTUAL
c) Suponer que las observaciones sean independientes, es cómodo para el desarrollo teórico del mo-
delo del muestreo. Ası́, si (X1 � . . . � XN ) es una muestra aleatoria de una población X, la función
de masa de la muestra vendrá dada por:
caso discreto: P (x1 � . . . � xN ) = P (x1 ) · · · · · P (xN )

caso continuo: f (x1 � . . . � xN ) = f (x1 ) · · · · · f (xN ) .
Esta independencia la podemos entender de dos maneras:
– de un modo exacto, significa que cada vez que observamos un elemento lo devolvemos a la
población (“reemplazamiento”);
– de una manera aproximada, significa que el tamaño de la población es muy grande en com-
paración con el de la muestra, de modo que la composición de la población se altera muy
poco al faltarle algunos elementos (los ya observados).
Nota: Conviene distinguir entre los conceptos de “muestra aleatoria” y “muestra”. La primera es
un vector aleatorio, con su función de masa (o densidad, según el tipo). La segunda es una colección
de números, x1 � . . . � xN , que entenderemos como una “realización” del vector aleatorio (X1 � . . . � XN ).
En adelante, en general, usaremos letras mayúsculas para referirnos a variables, y minúsculas para
valores de las mismas.
Por supuesto desconocemos P (o f ), pues de conocerla el problema no serı́a tal. Precisamente,
nuestro objetivo es ganar información sobre P (o f ) a partir de las observaciones X1 � . . . � XN . Para
ello, una buena idea es resumir la información aportada por los datos muestrales. Lo mejor serı́a que
estos resúmenes no perdiesen nada de la información contenida en la muestra. Esta necesidad nos
lleva a la definición de estadı́stico:
Definición 1.2. Un estadı́stico es una función real T de la muestra aleatoria (X1 � . . . � XN ).
En particular, un estadı́stico es una variable aleatoria, T (X1 � . . . � XN ), y, en consecuencia, podemos

hablar de su esperanza, varianza, . . . . Algunos de los más utilizados, en todo tipo de situaciones, son:
N
1 �
Media muestral: X̄ = Xi
N i=1
N
1 �
Varianza muestral: VX = (Xi − X̄)2
N i=1
N
2 1 �
Cuasi–varianza muestral: SX = (Xi − X̄)2 .
N − 1 i=1
Propiedades: Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con esperanza µ y
varianza σ 2 , entonces:
a) E[X̄] = µ;
σ2
b) V (X̄) = ;
N
2
c) E[SX ] = σ2;
d) E[VX ] = NN−1 σ 2 .
1. MUESTRA ALEATORIA. PARÁMETRO Y ESTIMADOR 69
Ejercicio 1 Demostrar las propiedades anteriores.

Solución: Basta aplicar las definiciones en cada caso, en efecto:
�1 � N � 1 �
N
1
E[X̄] = E Xi = E[Xi ] = Nµ = µ ;
N i=1 N i=1 N
�1 �N � N
1 �
V (X̄) = V Xi = 2 V (Xi ) (por independencia)
N i=1 N i=1
1 2 σ2
= N σ = ;
N2 N
� 1 � � 1 ��N �
2
E[SX ] = E (Xi − X̄)2 = E (Xi − µ + µ − X̄)2
N − 1 i=1 N −1 i=1
1 �� N � � N
= E (Xi − µ)2 + N (X̄ − µ)2 + 2(µ − X̄) (Xi − µ)
N −1 i=1 i=1
1 �� N �
= E (Xi − µ)2 − N (X̄ − µ)2
N −1 i=1
1 �� 1 � 2 σ2 �
N
� �
= E (Xi − µ)2 − N E (X̄ − µ)2 = Nσ − N = σ2 ;
N − 1 i=1 N −1 N
��
N � �N − 1 � N −1
E[VX ] = E (Xi − X̄)2 = E 2
SX = σ2 .
i=1
N N
1.1. Inferencia paramétrica

El problema que tenemos planteado es el desconocimiento de la disribución concreta que sigue la
población X. En la mayorı́a de casos este desconocimiento será parcial, y, por ejemplo, tendremos
cierta sospecha del tipo de función de masa o de densidad que buscamos: una binomial, una Poisson,
una normal, . . . . Ası́, será habitual suponer que la población sigue cierto modelo de probabilidad del
que nos faltará conocer algún parámetro. De la resolución de este tipo de problemas se encarga la
Inferencia paramétrica. En general, la situación será la siguiente:
La población, X, sigue cierta distribución, de la que conocemos la forma de su función de masa P
(o de su función de densidad, f ). En ella aparece un parámetro, θ, desconocido (que puede ser
de una o más dimensiones). El conjunto de posibles valores del parámetro se denomina espacio
paramétrico, y lo representaremos por Θ.
Si la caracterı́stica que estudiamos es discreta, representaremos a su función de masa por Pθ ; y si es
continua, a su función de densidad por fθ . En ambos casos, para resaltar el objetivo de nuestro
problema: resolver o estimar el valor del parámetro desconocido θ.
La función de masa (o densidad) de la muestra aleatoria será de la forma:
caso discreto: Pθ (x1 � . . . � xN ) = Pθ (x1 ) · · · · · Pθ (xN )
caso continuo: fθ (x1 � . . . � xN ) = fθ (x1 ) · · · · · fθ (xN ) .
La Inferencia paramétrica se divide en tres grandes partes, dependiendo de la naturaleza del pro-
blema a resolver, y del tipo de solución que demos:
A. estimación puntual;
B. estimación por intervalos de confianza;
C. contraste de hipótesis paramétricas;
y dedicaremos sendos capı́tulos a cada una de ellas.
Terminamos esta introducción a la Inferencia paramétrica, ocupándonos de una cuestión que
quedó en el aire: no perder demasiada información con los estadı́sticos. Más en concreto, introducido
en el lenguaje el concepto de parámetro, θ, lo que nos gustarı́a es utilizar estadı́sticos sencillos que
conserven toda la información sobre θ que lleva la muestra (X1 � . . . � XN ). Motivamos este último
cometido con el siguiente ejemplo.
Ejemplo 32 La probabilidad de obtener cara al lanzar una moneda es un valor desconocido, θ, entre
0 y 1 (espacio paramétrico Θ = (0� 1)). Si al suceso cara le asignamos el valor 1, y a su contrario,
cruz, el valor 0, y lanzamos la moneda N veces, obtenemos una muestra aleatoria (X1 � . . . � XN ) de
una población, X, con función de masa
Pθ (x) = θx (1 − θ)1−x x = 0� 1 ( distribucción de Bernoulli ) .
La función de masa de la muestra es:
�N �N
Pθ (x1 � . . . � xN ) = θx1 (1 − θ)1−x1 · · · · · θxN (1 − θ)1−xN = θ i=1 xi
(1 − θ)N − i=1 xi
.
Parece claro, en este caso, que el estadı́stico
N
�
T (X1 � . . . � XN ) = Xi = “número de caras obtenidas”
i=1
contiene tanta información sobre θ como la descripción detallada del resultado de los N lanzamientos.
Observando que T ∼ B(N ; θ), será fácil obtener la probabilidad de una muestra (x1 � . . . � xN )
condicionada por el hecho de que el estadı́stico T ha tomado el valor t (han salido t caras en los N
lanzamientos):
P (T = t | x1 � . . . � xN ) Pθ (x1 � . . . � xN )
P (x1 � . . . � xN | T = t) =
Pθ (T = t)
�N �N
P (T = t | x1 � . . . � xN ) θ i=1 xi (1 − θ)N − i=1 xi
= �N �
t
θt (1 − θ)N −t

 θ t �1−θ)N −t � N

 N t = 1
si xi = t
= ( t)
θ �1−θ)N −t ( N
t) i=1

 � N
 0 si xi �= t .
i=1
Es decir, la distribución de la muestra (X1 � . . . � XN ) condicionada por T = t no depende del

parámetro θ. Intuitivamente, esto significa que lo que queda de la muestra, una vez extraı́da la
información contenida en T , no nos va a decir nada más sobre θ. En este sentido se introduce el
siguiente concepto.
2. ESTIMACIÓN PUNTUAL 71
Definición 1.3. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de ma-
sa Pθ (o función de densidad fθ ). Un estadı́stico, T , es suficiente para θ cuando la distribución
de (X1 � . . . � XN ) condicionada por T = t no depende de θ.
A pesar de la claridad del concepto, es muy difı́cil utilizar esta definición para decidir si un
estadı́stico es suficiente. En primer lugar hay que conjeturar qué estadı́stico T puede ser suficiente,
y después obtener la distribución condicionada, que será casi siempre difı́cil. Afortunadamente hay
una caracterización sencilla alternativa:
Propiedad: Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa Pθ
�o función de densidad fθ ). Un estadı́stico T es suficiente para θ si y sólo si:
� �
Pθ (x1 � . . . � xN ) = g T (x1 � . . . � xN )� θ h(x1 � . . . � xN )
�o la correspondiente identidad para el caso continuo).
En el caso del lanzamiento de la moneda, se tendrı́a la siguiente sencilla comprobación:
�N �N
xi
Pθ (x1 � . . . � xN ) = θ i=1 (1 − θ)N − i=1 xi
= g(T (x1 � . . . � xN )� θ) h(x1 � . . . � xN )
�
con T (x1 � . . . � xN ) = N
i=1 xi
g(T (x1 � . . . � xN )� θ) = θT �x1 �...�xN ) (1 − θ)N −T �x1 �...�xN )

h(x1 � . . . � xN ) = 1 .
2. Estimación puntual
Supongamos dada una caracterı́stica X y aceptemos que sigue cierto modelo dado por una función
de masa Pθ (o de densidad fθ ), de la que desconocemos el valor del parámetro θ dentro de un espacio
paramétrico Θ.
El objetivo de la estimación puntual es tomar un valor plausible para el parámetro θ. Para ello
se considera una muestra aleatoria (X1 � . . . � XN ) de la población X, y a partir de una realización
de la misma, esto es, una colección de datos x1 � . . . � xN , se decidirá el valor para la estimación del
parámetro.
Definición 2.1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa
Pθ (o función de densidad fθ ), donde θ ∈ Θ. Un estimador puntual de g(θ) es una función T
que a cada posible muestra (x1 � . . . � xN ) le hace corresponder una estimación T (x1 � . . . � xN ) de g(θ).
Observaciones:
a) Habitualmente se buscará estimar θ (esto es, g(θ) = θ), pero puede interesarnos estimar alguna
función de θ (por ejemplo θ2 ). Por esta razón hablaremos de estimadores puntuales de g(θ).
b) Evidentemente, T (X1 � . . . � XN ) es una variable aleatoria (o un vector aleatorio si g(θ) tiene
más de una dimensión). En realidad, un estimador puntual no es más que un estadı́stico con
un objetivo concreto: acercarse lo más posible al verdadero valor de g(θ). Según nos convenga
usaremos la notación T (X1 � . . . � XN ) o simplemente T .
c) La definición dada de estimador puntual es muy general, y engloba tanto estimadores razo-
nables como otros completamente absurdos. Lo siguiente que haremos es mostrar propiedades
deseables para un estimador razonable, eliminando, ası́, estimadores indeseables.
Definición 2.2. El error cuadrático medio de un estimador T para estimar g(θ) se define
como:

 �N � �

 T (x1 � . . . � xN ) − g(θ)2 Pθ (x1 ) · · · · · Pθ (xN ) (caso discreto)
� �
Eθ (T − g(θ))2 = �
i=1
� �


 T (x1 � . . . � xN ) − g(θ)2 fθ (x1 ) · · · · · fθ (xN ) dx1 . . . dxN (caso continuo)
�
Es claro que un estimador será más efectivo cuánto más pequeño sea su error cuadrático medio.
El siguiente desarrollo nos aporta una fórmula sencilla para el cálculo de este error:
� � � �
Eθ (T − g(θ))2 = Eθ (T − Eθ [T ] + Eθ [T ] − g(θ))2
� �
= Eθ (T − Eθ [T ])2 + (Eθ [T ] − g(θ))2
= Vθ (T ) + (Sesgo(T ))2
siendo Sesgo(T ) = Eθ [T ] − g(θ).

De esta última igualdad vemos que podemos reducir el error cuadrático medio, bien reduciendo la
varianza del estimador, bien reduciendo su sesgo para estimar g(θ). Podemos eliminar completamente
el sesgo al trabajar con estimadores insesgados.
Definición 2.3. Un estimador T es insesgado (o centrado) para estimar g(θ), si verifica:
Eθ [T ] = g(θ) para todo θ ∈ Θ .
Al considerar sólo estimadores insesgados podemos estar eliminando otros estimadores valiosos
(a pesar de no ser insesgados). No obstante tenemos una ventaja adicional, pues para un estimador
insesgado su error cuadrático medio es simplemente Vθ (T ). De este modo, dentro de los estimadores
insesgados buscarı́amos el de varianza mı́nima. Este cometido es muy interesante, pero excede el nivel
de este curso.
Es sencillo encontrar ejemplos de estimadores insesgados.
Ejemplo 33 Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con distribución N (µ ; σ).
En este caso θ = (µ� σ), y tenemos:
T1 (X1 � . . . � XN ) = X̄ es un estimador insesgado de g1 (θ) = µ, ya que Eθ [X̄] = µ;
2
T1 (X1 � . . . � XN ) = SX (cuasi-varianza) es insesgado para estimar g2 (θ) = σ 2 , ya que Eθ [X̄] = σ 2 .
Otra propiedad bastante razonable a exigir a un estimador T es que, cuanto mayor sea el tamaño
muestral N , más se acerque la estimación T (x1 � . . . � xN ) al verdadero valor de g(θ). Esto nos lleva al
siguiente concepto:
Definición 2.4. Un estimador T es consistente para estimar g(θ) si, para todo θ ∈ Θ:
�
lı́m FT (t) = 0 para t < g(θ)
N →∞
lı́m FT (t) = 1 para t > g(θ)
N →∞
donde FT es la función de distribución de T (X1 � . . . � XN ).

3. MÉTODOS DE CONSTRUCCIÓN DE ESTIMADORES 73
La idea es que, a medida que aumenta el tamaño muestral, más se concentra la distribución
de la variable aleatoria T (X1 � . . . � XN ) alrededor del verdadero valor de g(θ) (sea cual sea), y, en
consecuencia, las estimaciones T (x1 � . . . � xN ) cada vez se acercan más a dicho valor.
Calcular la función de distribución de T suele ser difı́cil, por lo que es difı́cil ver, a partir de la
definición, cuándo un estimador va a ser consistente. Afortunadamente tenemos una propiedad, más
fácil de comprobar en muchas situaciones, que nos permite afirmar si un estimador es consistente.
Propiedad: Si T es un estimador que verifica:
i. lı́m Eθ [T ] = g(θ), para todo θ ∈ Θ,
N →∞
ii. lı́m Vθ (T ) = 0, para todo θ ∈ Θ,

N →∞
entonces es consistente.
Ejemplo 34 Sea (X1 � . . . � XN ) una muestra aleatoria de una población X ∼ N (µ � σ), θ = (µ� σ).
El estimador T1 (X1 � . . . � XN ) = X̄ es consistente para estimar g1 (θ) = µ, ya que:
lı́m Eθ [T1 ] = lı́m Eθ [X̄] = lı́m µ = µ = g1 (θ)
N →∞ N →∞ N →∞
σ2
lı́m Vθ (T1 ) = lı́m Vθ (X̄) = lı́m = 0.
N →∞ N →∞ N →∞ N
3. Métodos de construcción de estimadores

Vamos a mostrar dos sencillos métodos de construcción de estimadores puntuales razonables,
aplicables a cualquier situación. Empezaremos con el método de los momentos, y posteriormente,
pasaremos al más utilizado: el método de máxima verosimilitud.
3.1. Método de los momentos

Definición 3.1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de masa
Pθ (o función de densidad fθ ), con parámetro desconocido θ = (θ1 � . . . � θk ) ∈ Θ. El estimador de θ
por el método de los momentos es el formado por los valores θ�1 , . . . , θ�k que se obtienen al resolver,
en las variables θ1 � . . . � θk , el sistema de ecuaciones:


 1 �N

 E θ [X] = Xi

 N i=1
.. .. ..
 . . .

 1 �N


 Eθ [X k ] = Xk
N i=1 i
donde, Eθ [X j ] se denomina momento de orden j.
La justificación de este método es sencilla: parece razonable pensar que los momentos de la pobla-
ción se parecerán a los respectivos momentos de la muestra. Se plantean entonces tantas ecuaciones
como componentes tenga el parámetro a estimar.
No obstante, este método presenta serios incovenientes. Por ejemplo, es posible obtener estima-
ciones fuera del espacio paramétrico.
3.2. Método de máxima verosimilitud

Es el método más utilizado para construir estimadores puntuales. Se basa, también, en una idea
muy sencilla, y tiene la ventaja de no presentar los inconvenientes que a veces surgen con el método
de los momentos. Motivamos el método con el siguiente ejemplo.
Ejemplo 35 Sabemos que en una urna hay, entre negras y blancas, un total de 4 bolas, pero desco-
nocemos la composición exacta. Sea θ la proporción de, por ejemplo, bolas blancas. Es claro cuál es
el espacio paramétrico en este caso, pues θ puede tomar los valores:
0; 1/4 ; 1/2 ; 3/4 ; 1.
Para obtener más información se extraen de la urna 2 bolas, con reemplazamiento (para tener inde-
pendencia en las observaciones). Supongamos que la primera bola ha sido blanca y la segunda negra,
es decir la muestra obtenida ha sido (B� N ). La probabilidad que tenı́amos de obtener esta muestra,
dependiendo de la composición de la urna, esto es de la proporción θ, era:


 0 si θ = 0


 3/16 si θ = 1/4
Pθ (B� N ) = 1/4 si θ = 1/2



 3/16 si θ = 3/4

0 si θ = 1
La idea del método de máxima verosimilitud es tomar como estimación de θ aquel valor que daba
más probabilidad a la muestra obtenida, en este caso θ� = 1/2.
Definición 3.2. �Método de máxima verosimilitud) Sea (X1 � . . . � XN ) una muestra aleatoria
de una población X con función de masa Pθ (o función de densidad fθ ), con parámetro desconocido
θ = (θ1 � . . . � θk ) ∈ Θ. El estimador de máxima verosimilitud, θ, � de θ es el formado por los valores
� �
(θ1 � . . . � θk ) que maximizan la que llamaremos función de verosimilitud de la muestra obtenida,
que se define por:
�
Pθ (x1 ) · . . . · Pθ (xn ) (caso discreto)
L(θ) = L(θ ; x1 � . . . � xN ) =
fθ (x1 ) · . . . · fθ (xn ) (caso continuo)
Observaciones:
a) La función de verosimilitud expresa la probabilidad (o la densidad) que los diferentes valores

de θ dan a la muestra obtenida. Lo que hacemos, por tanto, es maximizar esa probabilidad
(o densidad).
b) De la misma definición, vemos que la estimación de máxima verosimilitud siempre es un valor

del espacio paramétrico.
c) Para no tener que manejar productos, en muchas ocasiones es más cómodo encontrar el estima-
dor de máxima verosimilitud considerando log(L(θ)), en lugar de L(θ). Puesto que la función
log(x) es monótona creciente, log(L(θ)) se hace máxima (y mı́nima) en los mismos puntos
que L(θ). La ventaja es que basta despejar θ1 , . . . , θk del sistema de ecuaciones:

 ∂ log(L(θ))

 = 0

 ∂θ1
.. .. ..
 . . .

 ∂ log(L(θ))

 = 0
∂θk
Por supuesto hay que tener precaución con este procedimiento, pues el punto crı́tico obtenido no
tiene por qué corresponder a un máximo. Además, puede ocurrir que la función de verosimilitud
se maximice en un extremo, en cuyo caso no tiene por qué dar un punto crı́tico, es decir, no
obtendrı́amos nada con este procedimiento.
d) Obsérvese, por último, que si θ� es el estimador de máxima verosimilitud, entonces g(θ)

� será el
de g(θ). Si, por ejemplo, hemos obtenido X̄ como estimador de máxima verosimilitud para θ,
entonces X̄ 2 lo será para θ2 .
Ejercicio 2 Dada una muestra aleatoria de tamaño N de una población X, calcular los estimadores
� y por el de máxima verosimilitud, θ,
puntuales para θ por el método de los momentos, θ, � en los
siguientes casos:
a) X ∼ Bernoulli de parámetro p;
b) X ∼ Poisson (λ);
c) X ∼ Exponencial (λ);
d) X ∼ N (µ ; σ), (σ conocido);
e) X ∼ N (µ ; σ), (µ conocido);
f) X ∼ N (µ ; σ).
Solución: Planteamos ambos métodos en cada caso, y utilizamos, para cuando haga falta, la igual-
dad E[X 2 ] = V [X] + E[X]2 , que se deduce inmediatamente de la definición de varianza de una
variable aleatoria.
a) X ∼ Bernoulli de parámetro p. Queremos estimar el parámetro desconocido p ∈ (0� 1), siendo

la función de masa:
Pp (x) = px (1 − p)x x = 0� 1 .
Método de los momentos. Puesto que el parámetro es de una dimensión, se considera solo el
primer momento. El momento de orden 1 de la población, Ep [X], es su esperanza, p, y el
de la muestra es la media muestral x̄. Tomamos pues el estimador
p� = x̄ .
Método de máxima verosimilitud. La función de verosimilitud es:

� �
L(p) = L(p ; x1 � . . . � xN ) = px1 (1 − p)x1 · · · · · pxN (1 − p)xN = p xi
(1 − p)N − xi
.
Tomamos, para simplificar cálculos, su logaritmo y lo maximizamos:

��
log(L(p)) = xi log(p) + N − xi log(1 − p)
� � �
d log(L(p)) xi N − xi xi − N p
= − = .
dp p 1−p p(1 − p)
�
Al igualar a cero la derivada se obtiene un punto crı́tico para p = N1 xi = x̄. Además,
un simple análisis del signo de la derivada nos muestra que ésta es positiva para p < x̄, y
negativa para p > x̄* . Por tanto, este punto crı́tico corresponde a un máximo, por lo que
tomamos como estimador de máxima verosimilitud:
p� = x̄ .
b) X ∼ Poisson (λ). Queremos estimar el parámetro desconocido λ > 0, siendo la función de masa:
λx e−λ
Pλ (x) = x = 0� 1� 2� . . . .
x�
Método de los momentos. El momento de orden 1 de la población, Eλ [X], es su esperanza, λ,
y el de la muestra es la media muestral x̄. Tomamos pues el estimador de momentos
� = x̄ .
λ
Método de máxima verosimilitud. La función de verosimilitud para una muestra dada es:
�
xi
λ e−N λ
L(λ) = �
xi �
con logaritmo:
��
log(L(λ)) = xi log(λ) − N λ − log xi �) .
El último término asusta, pero no hay problema porque es una constante. Al derivar e
igualar a cero obtenemos:
�
d log(L(λ)) xi 1 �
= − N = 0 ⇐⇒ λ = xi = x̄ .
dλ λ N
De nuevo, es fácil ver que este punto crı́tico corresponde a un máximo, por lo que toma-
remos como estimador de máxima verosimilitud:
� = x̄ .
λ
�
En efecto,
� el denominador es siempre
� positivo, al ser el espacio paramétrico el intervalo �0� 1). Por otra parte,
�
p < x̄ = �1 xi equivale a N p < xi , quedando el numerador positivo. Por contra, p > x̄ equivale a N p > xi ,
quedando el numerador negativo.
c) X ∼ Exponencial (λ). Queremos estimar el parámetro desconocido λ > 0, siendo la función

de densidad:
fλ (x) = λe−λx x > 0.
Método de los momentos. El momento de orden 1 de la población, Eλ [X], es su esperanza, 1/λ,

�= 1.
λ
x̄
�
L(λ) = λN e−λ xi
con logaritmo:
��
log(L(λ)) = N log(λ) − xi λ .
Al derivar e igualar a cero obtenemos:
d log(L(λ)) N �� N 1
= − xi = 0 ⇐⇒ λ= � = .
dλ λ xi x̄
Obsérvese que λ > 0 y que cada dato, xi , de una muestra correspondiente a esta población
es positivo. Es fácil, entonces, ver que este punto crı́tico corresponde a un máximo, por lo
que tomaremos como estimador de máxima verosimilitud:
�= 1.
λ
x̄
d) X ∼ N (µ ; σ), (σ conocido). Queremos estimar el parámetro desconocido µ ∈ �, siendo la
función de densidad para esta población:
� �
1 (x − µ)2
fµ (x) = √ exp − � para todo x ∈ �.
σ 2π 2σ 2
Método de los momentos. El momento de orden 1 de la población, Eµ [X], es su esperanza, µ,
µ
� = x̄ .
� �N � � �
1 (xi − µ)2
L(µ) = √ exp −
σ 2π 2σ 2
con logaritmo:
�
√ (xi − µ)2
log(L(µ)) = −N log(σ 2π) − 2
� 2σ ��
√ 2
xi − 2 xi µ + N µ 2
= −N log(σ 2π) − .
2σ 2
Al derivar, respecto de µ, e igualar a cero obtenemos:

�
d log(L(µ)) xi N µ
= 2
− 2 = 0 ⇐⇒ µ = x̄ .
dµ σ σ
Este punto crı́tico corresponde a un máximo (¿por qué?), por lo que tomaremos como
estimador de máxima verosimilitud:
µ
� = x̄ .
e) X ∼ N (µ ; σ), (µ conocido). Ahora el parámetro desconocido es σ > 0, siendo la función de
densidad para esta población:
� �
1 (x − µ)2
fσ (x) = √ exp − � para todo x ∈ �.
σ 2π 2σ 2
Método de los momentos. El momento de orden 1 de la población, E[X], es su esperanza, µ.
Ası́, la primera ecuación planteada en el método de los momentos no nos dice nada del
parámetro que intentamos estimar, σ. Tomamos entonces el momento de orden 2:
E[X 2 ] = V [X] + E[X]2 = σ 2 + µ2 .
1 � 2
Por otra parte, el momento de orden 2 de la muestra es xi . La ecuación quedarı́a:
N
1 � 2
σ 2 + µ2 = xi
N
Tomamos pues el estimador de momentos para g(σ) = σ 2
1 � 2
�2 =
σ x i − µ2 .
N
Nótese que en este caso podemos obtener estimadores absurdos. Si, por ejemplo, sabemos
�2 = −7, que es un valor absurdo.
que µ = 5 y la muestra es (3� 3� 6), obtendrı́amos σ
� �N � � �
1 (xi − µ)2
L(σ) = √ exp −
σ 2π 2σ 2
con logaritmo: �
√ (xi − µ)2
log(L(σ)) = −N log(σ 2π) − .
2σ 2
Al derivar, respecto de σ, e igualar a cero obtenemos:
�
d log(L(σ)) −N (xi − µ)2 1 �
= + = 0 ⇐⇒ σ2 = (xi − µ)2 .
dσ σ σ3 N
Este punto crı́tico corresponde a un máximo (¿por qué?), por lo que tomaremos como
estimador de máxima verosimilitud para g(σ) = σ 2 :
1 �
�2 =
σ (xi − µ)2 .
N
f) X ∼ N (µ ; σ).
En este último caso, se desconocen ambos parámetros de la población, y ası́ estimaremos:
θ = (µ� σ), con µ ∈ � y σ > 0. La función de densidad es:
� �
1 (x − µ)2
fθ (x) = √ exp − � para todo x ∈ �.
σ 2π 2σ 2
Método de los momentos. Tenemos que considerar dos ecuaciones (pues hay 2 parámetros):
µ = x̄
N
1 � 2
σ 2 + µ2 = x .
N i=1 i
Obtenemos como solución para el sistema:
N
1 � 2 1 �
µ = x̄ y σ2 = xi − x̄2 = varianza muestral = (xi − x̄)2
N N i=1
de manera que, el estimador de momentos para g(µ� σ) = (µ� σ 2 ), vendrá dado por:
N
2 1 �
µ
� = x̄ � � =
σ (xi − x̄)2 .
N i=1
Nótese que ahora, el estimador para σ 2 no puede producir resultados absurdos.
� �N � � �
1 (xi − µ)2
L(µ� σ) = √ exp −
σ 2π 2σ 2
con logaritmo: �
√ (xi − µ)2
log(L(µ� σ)) = −N log(σ 2π) − ;
2σ 2
que conviene escribir como:
� ��
√ x2i − 2 xi µ + N µ 2
log(L(µ� σ)) = −N log(σ) − N log( 2π) − ;
2σ 2
El sistema planteado, igualando a cero las derivadas parciales respecto a cada una de las
variables, es:
�
∂ log(L(µ� σ)) xi N µ
= 2
− 2 =0
∂µ σ σ
�
∂ log(L(µ� σ)) −N (xi − µ)2
= + =0
∂σ σ σ3
�
µ = x̄ �
con solución:
σ 2 = N1 (xi − x̄)2 .
Tomamos esta solución como estimación de máxima verosimilitud al dar un máximo:
N
2 1 �
µ
� = x̄ � � =
σ (xi − x̄)2 .
N i=1
Problemas
1. Sea (X1 � . . . � XN ) una muestra aleatoria de una población X con función de densidad:
fθ (x) = e−x+θ si x > θ � (θ ∈ �) .
a) Hallar el estimador por el método de los momentos de θ.

b) Estudiar si el estimador encontrado en el apartado anterior es insesgado para estimar el
parámetro θ.
x � −x2 �
fθ (x) = exp si x > 0 � (θ > 0) .
θ2 2θ2
Hallar el estimador de máxima verosimilitud de θ.
� 1 �θ+1
fθ (x) = θ si x > 1 � (θ > 1) .
x
a) Hallar el estimador de máxima verosimilitud de θ.
b) Hallar el estimador de θ por el método de los momentos.
4. Se toma una muestra aleatoria de tamaño N de una población cuya función de densidad es:
1 � (log x − µ)2 �
f (x) = √ exp − si x > 0
xσ 2π 2σ 2
donde µ puede ser cualquier número real y σ es mayor que cero. Hallar los estimadores de
máxima verosimilitud de µ y σ 2 .
5. En una gran piscifactorı́a hay una proporción desconocida de peces de cierta especie A. Para
obtener información sobre dicha proporción, vamos a ir sacando peces al azar.
a) Si la proporción de peces de la especie A es p, ¿cuál es la probabilidad de que el primer

pez de la especie A sea el décimo que extraemos?
b) Tres personas realizan, independientemente unas de otras, el proceso de sacar peces al
azar hasta encontrarse con el primero de tipo A:
La primera persona obtiene el primer pez tipo A en la décima extracción; la segunda, en
la decimoquinta extracción; y en la decimoctava extracción, la tercera.
Escribir la función de verosimilitud y obtener la estimación de máxima verosimilitud de p.
6. Para estudiar la proporción p de caballos afectados por la peste equina se les va a someter a
una prueba. Sabemos que la prueba será positiva si el animal está enfermo; si está sano, hay
una probabilidad 0.04 de que la prueba resulte positiva.
a) Halla la relación entre la probabilidad p de estar enfermo y la probabilidad q de dar

positivo en la prueba.
b) Calcula el estimador de máxima verosimilitud de p si 500 ejemplares son sometidos a la

prueba y resulta positiva en 95 casos.
c) Si realmente hay un 20 % de caballos afectados por la epidemia, ¿cuál es la probabilidad
de que la prueba resulte positiva en al menos 95 ejemplares de los 500?
7. La distancia X entre un árbol cualquiera y el árbol más próximo a él en un bosque sigue una
distribución de Rayleigh con función de densidad
fθ (x) = 2θx exp(−θx2 ) si x ≥ 0 (θ > 0) .
a) Obtener los estimadores de máxima verosimilitud de θ y de
1 � π � 12
g(θ) = Eθ [X] = �
2 θ
basados en muestras de tamaño N .
b) Obtener el estimador de θ por el método de los momentos.
8. El coseno X del ángulo con el que se emiten los electrones en un proceso radiactivo es una
variable aleatoria con densidad
1 + θx
fθ (x) = si − 1 ≤ x ≤ 1 (−1 ≤ θ ≤ 1) .
2
Consideramos una muestra aleatoria (X1 � . . . � XN ) de esta variable aleatoria.
a) Obtener el estimador de θ por el método de los momentos.

b) Calcular la varianza de este estimador y demostrar que es consistente para estimar θ.
9. Se considera una muestra aleatoria (X1 � . . . � XN ) de una población con densidad
1
fθ (x) = e−x/θ si x > 0 (θ > 0) .
θ
a) Obtener el estimador de máxima verosimilitud de θ y θ2 .
b) Consideramos ahora el estimador
X1 + 2X2
T = .
3
¿Es T insesgado para estimar θ?
Hallar la varianza de T , sabiendo que la varianza poblacional es θ2 .
10. La lectura de voltaje dada por un voltı́metro conectado a un circuito eléctrico, es una variable
aleatoria con distribución uniforme en el intervalo (θ� θ + 1), siendo θ el verdadero valor (des-
conocido) del voltaje. Sea (X1 � . . . � XN ) una muestra aleatoria de lecturas de dicho voltı́metro.
a) Demostrar que la media muestral X̄ es un estimador sesgado de θ, y calcular el sesgo.

b) Calcular el error cuadrático medio de X̄.
c) Obtener, a partir de X̄, un estimador insesgado de θ.
11. Disponemos de una variable aleatoria de una población con función de densidad
θ
fθ (x) = si x ≥ θ (θ > 0) .
x2
Calcular el estimador de máxima verosimilitud de θ y de 1/θ.
12. Se obtiene una muestra aleatoria (X1 � . . . � XN ) de una población con función de densidad
fθ (x) = θxθ−1 si x ∈ (0� 1) (θ > 0) .
Para estimar θ, calcúlese:
a) un estadı́stico suficiente;
b) el estimador de máxima verosimilitud;
c) el estimador por el método de los momentos.
13. Supongamos que se realizan N observaciones independientes de una variable aleatoria X, con
función de densidad
1 1
fθ (x) = x θ −1 si 0 ≤ x ≤ 1 (θ �= 0) .
θ
a) Obtener el estimador de θ por el método de los momentos.
b) Obtener el estimador de máxima verosimilitud de θ.
c) Obtener el estimador de máxima verosimilitud de Pθ (X < 1/2).
14. El error (en centigramos) que se comete al pesar un objeto en una balanza puede considerarse
como una variable aleatoria con distribución N (µ = 0 ; σ = 15).
a) Calcular la probabilidad de que el error cometido (en valor absoluto) en una pesada sea
inferior a 20 centigramos.
b) Si se quiere que el error medio cometido (en valor absoluto) sea inferior a 5 centigramos
con probabilidad 0.9, ¿cuál es el número mı́nimo de pesadas que hemos de realizar?
15. Vamos a clasificar las personas de un paı́s según dos caracterı́sticas: color de los ojos (oscuros
o claros) y sexo (hombre o mujer). Las dos caracterı́sticas son independientes.
a) Obtenemos una muestra al azar de la población con los siguientes resultados:

200 mujeres de ojos claros;
150 hombres con ojos claros;
350 mujeres con ojos oscuros;
300 hombres de ojos oscuros.
Obtener la estimación de máxima verosimilitud de p = P {hombre} y q = P {ojos claros}.
b) Después de muchas horas de intenso trabajo llegamos a saber con exactitud que p = 0.4 y
q = 0.6. Si tomamos 8 personas al azar de ese paı́s, ¿cuál es la probabilidad de encontrar
alguna mujer de ojos oscuros? Y si la muestra que tomamos es de 200 personas, ¿cuál es
la probabilidad de que haya más de 60 mujeres de ojos oscuros?

Estimacion Puntual PDF

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estimacion Puntual PDF

Cargado por

Copyright:

Formatos disponibles

Capı́tulo 4

El objetivo que se marca la Estadı́stica es adaptar un modelo de comportamiento a distintas

1. Muestra aleatoria. Parámetro y estimador

a) La distribución marginal de cada Xi viene dada por P (o por f ).

a) Cada Xi representa el valor de X en el elemento i–ésimo de la muestra.

caso discreto: P (x1 � . . . � xN ) = P (x1 ) · · · · · P (xN )

Esta independencia la podemos entender de dos maneras:

Deﬁnición 1.2. Un estadı́stico es una función real T de la muestra aleatoria (X1 � . . . � XN ).

En particular, un estadı́stico es una variable aleatoria, T (X1 � . . . � XN ), y, en consecuencia, podemos

Ejercicio 1 Demostrar las propiedades anteriores.

1.1. Inferencia paramétrica

Es decir, la distribución de la muestra (X1 � . . . � XN ) condicionada por T = t no depende del

g(T (x1 � . . . � xN )� θ) = θT �x1 �...�xN ) (1 − θ)N −T �x1 �...�xN )

siendo Sesgo(T ) = Eθ [T ] − g(θ).

Deﬁnición 2.3. Un estimador T es insesgado (o centrado) para estimar g(θ), si veriﬁca:

Eθ [T ] = g(θ) para todo θ ∈ Θ .

Es sencillo encontrar ejemplos de estimadores insesgados.

donde FT es la función de distribución de T (X1 � . . . � XN ).

ii. lı́m Vθ (T ) = 0, para todo θ ∈ Θ,

3. Métodos de construcción de estimadores

3.1. Método de los momentos

3.2. Método de máxima verosimilitud

0; 1/4 ; 1/2 ; 3/4 ; 1.

a) La función de verosimilitud expresa la probabilidad (o la densidad) que los diferentes valores

b) De la misma deﬁnición, vemos que la estimación de máxima verosimilitud siempre es un valor

d) Obsérvese, por último, que si θ� es el estimador de máxima verosimilitud, entonces g(θ)

a) X ∼ Bernoulli de parámetro p. Queremos estimar el parámetro desconocido p ∈ (0� 1), siendo

Método de máxima verosimilitud. La función de verosimilitud es:

Tomamos, para simpliﬁcar cálculos, su logaritmo y lo maximizamos:

c) X ∼ Exponencial (λ). Queremos estimar el parámetro desconocido λ > 0, siendo la función

Método de los momentos. El momento de orden 1 de la población, Eλ [X], es su esperanza, 1/λ,

Al derivar, respecto de µ, e igualar a cero obtenemos:

fθ (x) = e−x+θ si x > θ � (θ ∈ �) .

a) Hallar el estimador por el método de los momentos de θ.

a) Si la proporción de peces de la especie A es p, ¿cuál es la probabilidad de que el primer

a) Halla la relación entre la probabilidad p de estar enfermo y la probabilidad q de dar

b) Calcula el estimador de máxima verosimilitud de p si 500 ejemplares son sometidos a la

fθ (x) = 2θx exp(−θx2 ) si x ≥ 0 (θ > 0) .

a) Obtener los estimadores de máxima verosimilitud de θ y de

a) Obtener el estimador de θ por el método de los momentos.

a) Demostrar que la media muestral X̄ es un estimador sesgado de θ, y calcular el sesgo.

fθ (x) = θxθ−1 si x ∈ (0� 1) (θ > 0) .

Para estimar θ, calcúlese:

a) Obtenemos una muestra al azar de la población con los siguientes resultados:

También podría gustarte